准备工作
简单分析数据(样本评估)
- 数据字段含义与内容
- 用户数据(user.dat): id(user_id), 性别(gender), 年龄(age), 社会地位级别(occupation), 身份表示(zip)
- 电影数据(moive.dat): id(moive_id), 电影名称(title), 类型(gener)
- 用户对电影评价(rating.dat): 用户id(user_id), 电影id(movie_id), 评价时间(timestamp), 评价得分(rating)
- 数据导入
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
mnames = ['movie_id', 'title', 'genres']
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
user_info = pd.read_table('./users.dat', sep='::',
header=None, names=unames, engine='python')
movie_info = pd.read_table('./movies.dat', header=None, sep='::', names=mnames, engine='python')
rating_info = pd.read_table('./ratings.dat', sep='::', header=None, names=rnames, engine='python')
df = pd.merge(pd.merge(user_info, rating_info, on='user_id'), movie_info, on='movie_id')
ge_cut = pd.cut(user_info.age, [0, 10, 20, 30, 40, 50, 100])
user_info.groupby(age_cut).size()
(0, 10] 222
(10, 20] 1103
(20, 30] 2096
(30, 40]