movielens 1m 的mysql_MovieLens电影数据分析

下载数据包

解压:

20180110235449461055.png

四个文件分别是数据介绍,电影数据表,电影评分表,用户表

进行电影数据分析

进入ipython,新建一个项目

从用户表读取用户信息

20180110235449465938.png

警告原因,C语言实现的引擎不支持某些特性,最终用Python引擎实现

打印列表长度,共有6040条记录

20180110235449466915.png

查看前五条记录

20180110235449468868.png  其中age对应的年龄段在readme表中有对应说明

同样方法,导入电影数据表,电影评分表

20180110235449469845.png

查看导入数据数量,评分表为1000209条,电影数据表有3883条

20180110235449470821.png

查看评分表前五条数据

20180110235449472775.png

查看电影数据前五条

20180110235449473751.png

导入完成之后,我们可以发现这三张表类似于数据库中的表

要进行数据分析,我们就要将多张表进行合并才有助于分析

使用merge函数合并

20180110235449475704.png

先将users与ratings两张表合并再跟movied合并

查看合并后的表长度和前十条数据

20180110235449476681.png

合并后的每一条记录反映了每个人的年龄,职业,性别,邮编,电影ID,评分,时间戳,电影信息,电影分类等一系列信息

比如我们查看用户id为1的所有信息

20180110235449478634.png

查看每一部电影不同性别的平均评分

运用数据透视

20180110235449479611.png

表中结构为每一部电影男性跟女性的评分平均值

查看电影分歧最大的那部电影

加一列评分差值

20180110235449481564.png

按照diff排序

20180110235449482541.png

查看评分最多的电影

20180110235449484494.png

查看最热门电影

20180110235449485470.png

查看最高分电影

先算出每部电影平均得分

20180110235449487424.png

对电影平均得分排序

20180110235449488400.png

当然,从严格意义上仅仅通过单一条件电影评分高低我们还不能判断这部电影是否是一部真正的好电影,因为评分均分跟观影人数也有关系

先按照热度找出热度高的电影,有207部电影符合条件,然后我们可以在评分数据透视中筛选出符合条件的数据

20180110235449490353.png

20180110235449492307.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值