数据分享|关联规则Apriori挖掘豆瓣读书评论爬虫采集数据与可视化

原文链接:http://tecdat.cn/?p=26341

豆瓣读书是豆瓣网的一个子版块。本文数据来源于豆瓣读书网站查看文末了解数据获取方式,分析内容将基于豆瓣读书的图书评分和评论信息。主题将紧紧围绕以下几点:有哪些书籍值得推荐?一般书籍的价格是多少?一本书的评分和评论数量之间是否存在某种关系?

热门书籍分布

截至爬取之日,热门书评数量实时增长,分别是:

①:评分>=8.0且评论超过10w+的书籍;②:只有评论超过10w+的书;③:按书评数量排名TOP8;

c7a5620681812b93b8ecb3f0d5ca6348.png

经过对比,我发现一些值得一读再读的名著总是在列表中,而且列表中的大部分书籍都是开卷即有益的好书。降低标准后,也出现了一些有益的书籍(《平凡的世界》之类的)。


点击标题查阅往期内容

d11b713747579852710710c364227828.jpeg

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

outside_default.png

左右滑动查看更多

outside_default.png

01

4e83367dabab26d2dfbf4af2b1eda5e6.gif

02

e89f292997b57f8509a6afcd6cd9ed0b.png

03

952c44b077ff0411954ecd40acbb36b4.gif

04

927ee391edceeb65f28ecfffae5a7f17.png

由此可以得出结论,数据分析算法应该是综合多种数据得到的权重模型,所以评论量大或者评分高的书不一定值得一读,综合考虑得到的结果可以 被认为是公平的。比如郭敬明的《梦里花落知多少》,路遥的《平凡的世界》。

书籍的价格一般都是在什么范围?

对于读书爱好者来说,这是一个比较关心的问题。

c94152fa2df3522d86463de3c3b44b9a.png

从上图我们可以发现,大部分书籍的价格在20-40之间,其他价格区间的书籍相对较少。计算机专业书籍的价格在60-90之间,低于10元价格范围的书籍部分是电子书。我们惊讶地发现有很多书的价格超过100元!

可以发现,这些百元以上的书籍,大部分都是史料书籍。价格高的原因之一是这些书一般分为很多卷,研究意义重大,耗费大量人力。

热门书籍评价指标Apriori关联规则分析

接下来,我们研究3个关键评价指标:评分、评分数量和评论数量之间的关系。Apriori是常用的关联规则挖掘方法之一,可以找出3个评价指标之间的隐藏关联。

3d202fbedb9a5ac7c885f3a468d669d5.png

使用平行多维图来观察流行书籍评分、评分数量和评论数量的流行关联规则。我们发现大部分书籍的评分在8.0-8.9之间,评分数量在20万-70万之间。

评论最多的书有追风筝人、解忧的杂货店、白夜行等,评分在8.1以上。基本上,具有更多评论的作品具有更高的评分。但是,有些超高分(9分以上)的作品,评论数量却没有想象中的多!

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,__拓端数据(__tecdat__)__不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。

数据获取

在下面公众号后台回复“读书”,可获取完整数据。


0ec86d093a958256af9b5f60b8ff0340.png

点击文末“阅读原文”

获取全文完整资料。

本文选自《关联规则Apriori挖掘豆瓣读书评论爬虫采集数据与可视化》。

点击标题查阅往期内容

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律

用SPSS Modeler的Web复杂网络对所有腧穴进行关联规则分析

PYTHON在线零售数据关联规则挖掘APRIORI算法数据可视化

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

R语言关联挖掘实例(购物篮分析)

python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析

基于R的FP树fp growth 关联数据挖掘技术在煤矿隐患管理

python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析

通过Python中的Apriori算法进行关联规则挖掘

Python中的Apriori关联算法-市场购物篮分析

R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律

在R语言中轻松创建关联网络

python主题建模可视化LDA和T-SNE交互式可视化

R语言时间序列数据指数平滑法分析交互式动态可视化

用R语言制作交互式图表和地图

如何用r语言制作交互可视化报告图表

9f6d12627336d3ca898ff7c05050a695.png

c903e5187bfc000094c00be27f4cf418.jpeg

323aeb5d8f71214eecd6de8914595a4a.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值