grouplens上的movielens数据集_Python：使用movielens数据集做分组统计练习

最新推荐文章于 2021-04-15 22:23:17 发布

rossdawson

最新推荐文章于 2021-04-15 22:23:17 发布

阅读量573

点赞数

文章标签： grouplens上的movielens数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42469649/article/details/112097332

版权

本文使用grouplens的movielens数据集，通过Python进行数据读取、拼接，然后按性别分组，分析男女对电影评分的差异。数据显示，女性评分的方差大于男性，且分别展示了男女评分的频数分布。

摘要由CSDN通过智能技术生成

下载数据集：

Index of /datasets/movielensfiles.grouplens.org

我下载的是ml-100k.zip文件进行数据分析和演示。

解压后，先看readme文件。

交代了这个数据集是谁收集的，主要数据有哪些。

交代了每个数据文件的内容，字段，是如何分隔字段的。

我们想要做的是分析男女对电影打分的差异性，即是否男性打分会偏低，女性打分会偏高。

我们需要的数据包括：性别(gender)、评分(rating)等字段，分布在u.user和u.data文件中。可以通过user.id字段将两个文件的数据连接起来。

u.data文件如下，可以看到，没有字段名~数据是以tab键分隔的。

u.user文件如下：没有字段名~并且数据是以|分隔的。

第一步：读入数据

注释：pandas库中的read_csv()函数不仅可以读取csv文件，还可以读取任意可以用记事本打开的文本文件，对于不是csv的文件，需要手动指出分隔符，即sep参数。

读入数据如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
grouplens上的movielens数据集_Python：使用movielens数据集做分组统计练习

下载数据集：Index of /datasets/movielensfiles.grouplens.org我下载的是ml-100k.zip文件进行数据分析和演示。解压后，先看readme文件。交代了这个数据集是谁收集的，主要数据有哪些。交代了每个数据文件的内容，字段，是如何分隔字段的。我们想要做的是分析男女对电影打分的差异性，即是否男性打分会偏低，女性打分会偏高。我们需要的数据包括：性别(gen...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。