python数据分析之pandas补充、IMDB实战

本文详细介绍了pandas的concat和merge方法用于数据扩充和联合查询,以及聚合函数如mean、sum等的应用。接着,通过IMDB电影数据实战,展示了数据清洗、指标分析,包括导演电影数量、票房排名、电影风格分布和年份票房统计。最后,讲解了如何找到票房最高电影的方法。
摘要由CSDN通过智能技术生成

1.pandas补充

1.1.concat数据扩充与merge联合查询

我们如果要将两个表结构相同的数据表进行合并,可以使用pandas.concat()方法。

该方法第一个参数必须是一个元组,元组中的元素是你要合并的数据表。例如,

import pandas as pd
score = pd.read_csv("score.csv")  # 读取csv文件
score_concat = pd.read_csv("score_concat.csv")  # 读取csv文件
concat_result = pd.concat((score, score_concat))  # 将数据表合并

concat()方法主要是为了扩充数据量,便于分析规律。而我们接下来说的pandas.merge()方法主要是将两个表结构不同的表,通过相同的键连接在一起,也就是Mysql中的各种连接。

pandas.merge()方法的前两位参数是要连接的数据表;我们可以添加on参数选择使用指定的键进行表连接,注意on参数必须是列表的形式;how参数用于指定表连接方式,诸如,内连接、外连接、左连接和右连接,分别为inner、outer、left和right,默认为内连接。例如,

df_score_info = pd.read_csv("score_info.csv")
result_merge_inner = pd.merge(df_score, df_score_info, on=["学号"])  # 内连接
result_merge_outer = pd.merge(df_score, df_score_info, how="outer", on=["学号"])  # 外连接
result_merge_left = pd.merge(df_score, df_score_info, how="left", on=["学号"])  # 左连接
result_merge_right = pd.merge(df_score, df_score_info, how="right", on=["学号"])  # 右连接

1.2.聚合函数

在pandas中我们可以使用mean()、sum()、min()、max()、median()等聚合函数进行数据操作,我们可以在聚合函数中添加axis参数选定数据操作方向,axis=1表示对行数据进行操作,axis=0表示对列数据进行操作。例如,

score.mean(axis=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值