数据集介绍:本数据集由Cai-Nicolas Ziegler收集,他对图书漂流社区进行了四周(2014年8月和9月)的数据爬行。该数据集包含278858个用户对271379册图书的1149780个评分。
数据集的网页地址:http://www.datatang.com/data/45481/
由于数据集的质量不高,需要对数据进行预处理。可先用Excel处理数据,调整数据集的格式并删除错误的数据行,随后用R语言加载数据。由于Excel2010最大只能支持1048576行,当数据集的行数超过这个限制后,可用Access加载数据,同时我们需要用Access对数据集中的三张表进行联结。
1、分析人群的年龄
从以上两张图片可以看出,读书人群的年龄主要集中在20~40之间,且呈偏态分布。
2、统计各国读书人群的数量
由于数据集包含了很多国家,不利于作图,因此只选择了排名靠前的12个国家。
可以看出,美国的读者人数最多。同时我们发现,母语为英语的国家占了很大的比重。一方面可能与人口基数有关;另一方面,我们可以猜想,在数据爬取的过程中可能优先选择了英语国家,造成了数据的有偏性。总之,在这里,我们不能妄下结论。
3、统计各类评分的数量
可以看出,很多图书没有得到评分(0分),在得到评分的数据里,评分主要集中在7~10分,而1~4分的数据很少。