Pandas项目实战1——好莱坞百万级电影评论数据分析

好莱坞百万级电影评论数据分析

经过Pandas的入门学习,急需要通过一些简单的项目来将所学知识和用法融会贯通,这里选择对好莱坞百万级电影评论数据进行分析处理,下面就开始吧~

Pandas 知识点

  • 数据读取
  • 数据集成
  • 透视表
  • 数据聚合与分组运算
  • 分段统计
  • 数据可视化

任务需求

  1. 数据加载和集成
  2. 平均分较高电影
  3. 不同性别对电影平均评分
  4. 不同性别争议最大电影
  5. 评分次数最多热门的电影
  6. 不同年龄段争议最大的电影
  7. 优化与总结

本文所使用的所有数据链接:

链接: https://pan.baidu.com/s/1KBphl8o-YEFXVp8N1IlsgA 提取码: 8daa

操作环境:Jupyter Notebook

1.导入所需库

import numpy as np
import pandas as pd
# draw
import matplotlib.pyplot as plt
%matplotlib inline

2.导入数据

读取user

通过查看README可以得到USER数据的格式如下:

USERS FILE DESCRIPTION User information is in the file “users.dat” and is in the following format:

UserID::Gender::Age::Occupation::Zip-code

此处索引命名不一定非要一致,自己明白即可

# shift + Tab 查看函数提示
# 创建索引列表
labels = ['UserID','Gender','Age','Occupation','Zip-code']
# 以此输入路径,分隔符,不作为头部,赋值索引
users = pd.read_csv('./users.dat',sep = '::', header= None, names =labels)
# 读取后查看维度
users.shape
(6040, 5)

若有红色输出则即可当做log日志,不用惊慌

users.head()
UserID Gender Age Occupation Zip-code
0 1 F 1 10 48067
1 2 M 56 16 70072
2 3 M 25 15 55117
3 4 M 45 7 02460
4 5 M 25 20 55455

读取Movie

MOVIES FILE DESCRIPTION

Movie information is in the file “movies.dat” and is in the following
format:

MovieID::Title::Genres

labels2 = ['MovieID','Title','Genres']
movie =pd.read_csv('./movies.dat',sep='::',header = None,names=labels2)
# display同时显示两个
display(movie.head(),movie.shape)
MovieID Title Genres
0 1 Toy Story (1995) Animation|Children’s|Comedy
1 2 Jumanji (1995) Adventure|Children’s|Fantasy
2 3 Grumpier Old Men (1995) Comedy|Romance
3 4 Waiting to Exhale (1995) Comedy|Drama
4 5 Father of the Bride Part II (1995) Comedy
(3883, 3)

读取RATINGS

RATINGS FILE DESCRIPTION

All ratings are contained in the file “ratings.dat” and are in the
following format:

UserID::MovieID::Rating::Timestamp

labels3 = ['UserID','MovieID','Rating','Time']
ratings =pd.read_csv('./ratings.dat',sep='::',header = None,names=labels3)
# display()同时显示两组数据
display(ratings.head(),ratings.shape)

这里读取百万级数据可能需要稍作等待。。。

UserID MovieID Rating Time
0 1 1193 5 978300760
1 1 661 3 978302109
2 1 914 3 978301968
3 1 3408 4 978300275
4 1 2355 5 978824291
(1000209, 4)

3. 数据合并

由于数据分布在三个表,所以需要对数据进行数据集成,首先将三张表简单展示在一起,查看各自特征。

display(users.head(),movie.head(),ratings.head())

UserID Gender Age Occupation Zip-code
0 1 F 1 10 48067
1 2 M 56 16 70072
2 3 M 25 15 55117
3 4 M 45 7 02460
4 5 M 25 20 55455
MovieID Title Genres
0 1 Toy Story (1995) Animation|Children’s|Comedy
1 2 Jumanji (1995) Adventure|Children’s|Fantasy
2 3 Grumpier Old Men (1995) Comedy|Romance
3 4 Waiting to Exhale (1995) Comedy|Drama
4 5 Father of the Bride Part II (1995) Comedy
UserID MovieID Rating Time
0 1 1193
  • 6
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
Pandas数据分析项目实战可以包括以下几个步骤: 1. 数据收集和导入:首先,你需要收集并导入你要进行数据分析的数据。可以通过各种方式获取数据,如从数据库中读取数据、从API获取数据或从本地文件中读取数据。Pandas提供了多种方法来导入数据,例如使用read_csv()函数导入CSV文件、使用read_excel()函数导入Excel文件等。 2. 数据清洗和预处理:在进行数据分析之前,你需要对数据进行清洗和预处理。这包括处理缺失值、处理异常值、进行数据类型转换、重命名列名、删除重复值等。Pandas提供了丰富的函数和方法来帮助你完成这些任务,如dropna()函数用于删除缺失值、fillna()函数用于填充缺失值、replace()函数用于替换特定值等。 3. 数据分析统计:一旦数据经过清洗和预处理,你可以开始进行数据分析统计Pandas提供了各种函数和方法来进行数据分析统计,如describe()函数用于生成数据的统计摘要、groupby()函数用于按照某个特征进行分组、apply()函数用于应用自定义函数等。 4. 数据可视化:数据可视化是数据分析项目中重要的一部分,它可以帮助你更好地理解数据和发现数据中的模式和趋势。Pandas提供了与Matplotlib和Seaborn等库的集成,可以方便地进行数据可视化。你可以使用plot()函数绘制各种类型的图表,如折线图、柱状图、散点图等。 5. 结果呈现和报告:最后,你可以将分析结果呈现出来,并生成相应的报告。可以使用Pandas的to_csv()函数将分析结果保存为CSV文件,使用to_excel()函数将分析结果保存为Excel文件,或使用Jupyter Notebook等工具将分析结果和报告整理成可视化的形式。 通过以上步骤,你就可以进行Pandas数据分析项目的实战了。记得灵活运用Pandas提供的功能和方法,根据具体需求进行数据处理、分析和可视化,实现你的数据科学项目的目标。愿你在Pandas的世界中探索到数据分析的乐趣! <span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Pandas 数据分析实战](https://blog.csdn.net/qq_33578950/article/details/129908344)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值