Day25(pandas电影评分数据实例分析,数据的处理分类提取)

import pandas as pd

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)
# 用python解析会出现警告
print(len(users))

users.head(5)
   user_id gender  age  occupation    zip
0        1      F    1          10  48067
1        2      M   56          16  70072
2        3      M   25          15  55117
3        4      M   45           7  02460
4        5      M   25          20  55455

rating_names = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rating_names)

ratings.head(5)
   user_id  movie_id  rating  timestamp
0        1      1193       5  978300760
1        1       661       3  978302109
2        1       914       3  978301968
3        1      3408       4  978300275
4        1      2355       5  978824291

movie_names = ['movie_id', 'title', 'genres']
movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=movie_names)

movies.head(5)
   movie_id                               title                        genres
0         1                    Toy Story (1995)   Animation|Children's|Comedy
1         2                      Jumanji (1995)  Adventure|Children's|Fantasy
2         3             Grumpier Old Men (1995)                Comedy|Romance
3         4            Waiting to Exhale (1995)                  Comedy|Drama
4         5  Father of the Bride Part II (1995)                        Comedy
#数据合并
data = pd.merge(pd.merge(users,ratings),movies)

合并后的数据 

#查看一个id=1的投票结果

查看针对一个电影男性的评分与女性的评分

加一列男女的差距

根据差别排序,看到区别 

 

按照题目分类,然后统计不同题目的评分数量 ,每个电影的评分个数不同

 

降序排序前十

 

计算每部电影的平均得分 

降序排序,可以看到平均评分高的也很陌生,因为不够热门,评分数量少 

 

此处以前十大评分数量多的电影名称为行索引,查看mean_ratings平均评分中的值 

 

查看前20高分电影的热度(评分人数)

找到热度和评分都高的电影

热度(超过1000个评分) 

热度电影中评分的前十高

 

展开阅读全文
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值