《用
Python
玩转数据》数据分析项目
一、程序功能
基于
MovieLens
100k
数据集中男性女性对电影的评分来判断男性还是女性电影
评分的差异性更大。
二、数据来源
数据集下载:
http://files.grouplens.org/datasets/movielens/ml-100k.zip
数据含义:
u.data
表示
100k
条评分记录,每一列的数值含义是:
user id | item id | rating | timestamp
u.user
表示用户的信息,每一列的数值含义是:
user id | age | gender | occupation | zip code
u.item
文件表示电影的相关信息,每一列的数值含义是:
movie/item id | movie title | release date | video release date |IMDb URL | unknown |
Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama |
Fantasy |Film-Noir | Horror | Musical
| Mystery | Romance | Sci-Fi |Thriller | War |
Western |
# API
文档请参考
http://pandas.pydata.org/pandas-docs/stable/
三、分析和参考代码
基于本数据集可以进行很多分析,
例如简单的可基于男生和女生评分均值统计男
女各自最喜爱的
10
部电影,结果如下:
>>> mean_ratings[:10]
gender
F
M