《利用python进行数据分析》第2章数据集的训练

最新推荐文章于 2023-01-30 10:45:00 发布

Be_young_beyond

最新推荐文章于 2023-01-30 10:45:00 发布

阅读量1.4k

点赞数

分类专栏：随性乱写没事乱写代码 python 文章标签：数据分析 python

本文链接：https://blog.csdn.net/huiseguiji1/article/details/50363110

版权

本文介绍了如何使用Python进行数据分析，重点在于对20-30岁用户的数据进行深入挖掘。分析了用户数据，包括性别、年龄和社会地位等，以及电影数据的发行年代。通过数据导入和处理，揭示了90年代电影发行情况、最受欢迎的电影、不同年龄层争议最大的电影以及各年龄段最受欢迎的电影类型。此外，还探讨了数据处理过程中的技术收获和理论理解。

摘要由CSDN通过智能技术生成

准备工作

数据来源
参考数据
官方api 文档

简单分析数据（样本评估）

数据字段含义与内容
- 用户数据(user.dat): id(user_id), 性别(gender)，年龄（age），社会地位级别(occupation), 身份表示（zip）
- 电影数据(moive.dat): id(moive_id), 电影名称(title), 类型(gener)
- 用户对电影评价(rating.dat): 用户id(user_id), 电影id(movie_id), 评价时间(timestamp), 评价得分(rating)
数据导入

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
mnames = ['movie_id', 'title', 'genres']
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

user_info = pd.read_table('./users.dat', sep='::', 
header=None, names=unames, engine='python')
movie_info = pd.read_table('./movies.dat', header=None, sep='::', names=mnames, engine='python')
rating_info = pd.read_table('./ratings.dat', sep='::', header=None, names=rnames, engine='python')

# 合并多表数据
 df = pd.merge(pd.merge(user_info, rating_info, on='user_id'), movie_info, on='movie_id')

用户数据的年龄统计

ge_cut = pd.cut(user_info.age, [0, 10, 20, 30, 40, 50, 100])
user_info.groupby(age_cut).size()

(0, 10]       222
(10, 20]     1103
(20, 30]     2096
(30, 40]