《利用python进行数据分析》第2章数据集的训练

本文介绍了如何使用Python进行数据分析,重点在于对20-30岁用户的数据进行深入挖掘。分析了用户数据,包括性别、年龄和社会地位等,以及电影数据的发行年代。通过数据导入和处理,揭示了90年代电影发行情况、最受欢迎的电影、不同年龄层争议最大的电影以及各年龄段最受欢迎的电影类型。此外,还探讨了数据处理过程中的技术收获和理论理解。
摘要由CSDN通过智能技术生成

准备工作

  • 数据来源
  • 参考数据
  • 官方api 文档

简单分析数据(样本评估)

  • 数据字段含义与内容
    • 用户数据(user.dat): id(user_id), 性别(gender), 年龄(age), 社会地位级别(occupation), 身份表示(zip)
    • 电影数据(moive.dat): id(moive_id), 电影名称(title), 类型(gener)
    • 用户对电影评价(rating.dat): 用户id(user_id), 电影id(movie_id), 评价时间(timestamp), 评价得分(rating)
  • 数据导入
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
mnames = ['movie_id', 'title', 'genres']
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

user_info = pd.read_table('./users.dat', sep='::', 
header=None, names=unames, engine='python')
movie_info = pd.read_table('./movies.dat', header=None, sep='::', names=mnames, engine='python')
rating_info = pd.read_table('./ratings.dat', sep='::', header=None, names=rnames, engine='python')

# 合并多表数据
 df = pd.merge(pd.merge(user_info, rating_info, on='user_id'), movie_info, on='movie_id')
  • 用户数据的年龄统计
ge_cut = pd.cut(user_info.age, [0, 10, 20, 30, 40, 50, 100])
user_info.groupby(age_cut).size()

(0, 10]       222
(10, 20]     1103
(20, 30]     2096
(30, 40]     
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值