MovieLens 1M 数据收集了 20 世纪 90 年代末和 21 世纪初的电影评分的集合.包
含电影的评分,流派和年份以及观众数据(年龄, 邮编, 性别和职业), 数据分布在三个表格里.
数据准备:一百万条数据
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# Make display smaller
pd.options.display.max_rows = 10
# 自定义用户姓名(会按照顺序-文件中只有五列)
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('datasets/movielens/users.dat', sep='::',
header=None, name