《利用python进行数据分析》第2章数据集的训练

准备工作

  • 数据来源
  • 参考数据
  • 官方api 文档

简单分析数据(样本评估)

  • 数据字段含义与内容
    • 用户数据(user.dat): id(user_id), 性别(gender), 年龄(age), 社会地位级别(occupation), 身份表示(zip)
    • 电影数据(moive.dat): id(moive_id), 电影名称(title), 类型(gener)
    • 用户对电影评价(rating.dat): 用户id(user_id), 电影id(movie_id), 评价时间(timestamp), 评价得分(rating)
  • 数据导入
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
mnames = ['movie_id', 'title', 'genres']
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

user_info = pd.read_table('./users.dat', sep='::', 
header=None, names=unames, engine='python')
movie_info = pd.read_table('./movies.dat', header=None, sep='::', names=mnames, engine='python')
rating_info = pd.read_table('./ratings.dat', sep='::', header=None, names=rnames, engine='python')

# 合并多表数据
 df = pd.merge(pd.merge(user_info, rating_info, on='user_id'), movie_info, on='movie_id')
  • 用户数据的年龄统计
ge_cut = pd.cut(user_info.age, [0, 10, 20, 30, 40, 50, 100])
user_info.groupby(age_cut).size()

(0, 10]       222
(10, 20]     1103
(20, 30]     2096
(30, 40]     
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值