无聊的时候跑跑数据也是极好的
伏尔泰曾说“读书使人心眼儿亮” 哦不 “读书使人心明眼亮”
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-euOqaQBf-1589990121157)(http://p39e7cgx2.bkt.clouddn.com/%E8%A1%A8%E6%83%85%E5%8C%85-%E8%AF%BB%E4%B9%A6.jpg)]
打广告 欢迎来踩个人博客
[个人博客]https://kongwiki.me/)
记得手上有一个豆瓣图书的数据 然后没事儿 就手痒拿来跑了跑
分析主题
- 书籍数量是否随着时间增长?
- 书籍的评分与年代之间的关系
- 随着时间的推移书籍的价格是否越来越贵
- 书籍一般的价格分布
- 过去的时间段内哪些出版社的书籍最多
- 那几个出版社的书籍评分最高
- 高产作者有哪些
- 写出高质量书籍的作者
- 书籍评分与年份之间是否纯在关系
分析过程
0x01书籍数量是否随着时间增长
数据是从1905年开始
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IkLkStP3-1589990121160)(http://p39e7cgx2.bkt.clouddn.com/%E8%B1%86%E7%93%A3%E5%9B%BE%E4%B9%A6-%E6%AF%8F%E5%B9%B4%E4%B9%A6%E7%B1%8D%E6%95%B0%E9%87%8F.png)]
可以看到整体从1997年之后开始书籍的数量开始指数型增长,而前期的书籍数量则几乎没有任何增长,然后在2011年之后数量开始锐减,下降的原因也许是数据的问题(即并未收集) 关于图中前面的那个bug应该是数据清理的时候有点儿问题导致(lll¬ω¬)
0x03 书籍的价位分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-It2KS4eu-1589990121164)(http://p39e7cgx2.bkt.clouddn.com/%E8%B1%86%E7%93%A3%E5%9B%BE%E4%B9%A6-%E4%BB%B7%E6%A0%BC%E8%8C%83%E5%9B%B4%E7%BB%9F%E8%AE%A1.png)]
大部分的书籍的价位分布是在20-40之间,0-20的基本是一些电子书,超过100的大多数都是各种全集之类的譬如中国美术全集(60册)
0x05 出版社书籍数量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qFfuiRgm-1589990121167)(http://p39e7cgx2.bkt.clouddn.com/%E8%B1%86%E7%93%A3%E5%9B%BE%E4%B9%A6-%E5%87%BA%E7%89%88%E7%A4%BE%E7%BB%9F%E8%AE%A1.png)]
应为布局问题只展示了前30的数据,不过还是很清楚的看到前四名分别是耳熟能详的中信
人名文学
人民邮电
机械工业
0x07 作者书籍数量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QDy1KNR8-1589990121171)(http://p39e7cgx2.bkt.clouddn.com/%E8%B1%86%E7%93%A3%E5%9B%BE%E4%B9%A6-%E4%BD%9C%E8%80%85%E4%B9%A6%E7%B1%8D%E6%95%B0%E9%87%8F.png)]
嗯~~~
- 第一名亦舒 不认识(*/ω\*)
- 第二名是初高中噩梦
- 第三名是名句
人的一切痛苦,本质上都是对自己的无能的愤怒
出处的王小波 - 第四名是中国当代武侠三大家之一的古龙
其他的分析待更