主要利用pandas工具包对于MovieLens数据集进行操作练习,为《利用Python进行数据分析》的书上实例,具体是14.2 MovieLens 1M Dataset(MovieLens 1M数据集)
中文版Jupyter nbviewer地址:https://nbviewer.jupyter.org/github/LearnXu/pydata-notebook/tree/master/Chapter-01/
原文版地址为https://github.com/wesm/pydata-book/blob/2nd-edition/ch14.ipynb
本文代码地址https://github.com/ritarae/DataAnalysis
Jupyter Nbviewer版http://nbviewer.jupyter.org/github/ritarae/DataAnalysis/tree/master/
都为jupyter notebook格式的代码文件,环境jupyter notebook+python2.
1.MovieLens 1M Dataset(MovieLens 1M数据集)
这个数据集是电影评分数据:包括电影评分,电影元数据(风格类型,年代)以及关于用户的人口统计学数据(年龄,邮编,性别,职业等)。
下载地址:https://grouplens.org/datasets/movielens/1m/
还有一个MovieLens 20M Dataset(https://grouplens.org/datasets/movielens/)
MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。分为三个表:评分,用户信息,电影信息。
1.1数据预处理
这些数据都是dat文件格式,可以通过pandas.read_table将各个表分别读到一个pandas DataFrame对象中。
import pandas as pd
#用户信息(users.dat表,数据无表目信息)
unames =