python数据分析之pandas补充、IMDB实战

最新推荐文章于 2024-07-05 19:57:36 发布

ForsetiRe

最新推荐文章于 2024-07-05 19:57:36 发布

阅读量720

点赞数

文章标签： python 数据分析 numpy

本文链接：https://blog.csdn.net/ForsetiRe/article/details/107773883

版权

本文详细介绍了pandas的concat和merge方法用于数据扩充和联合查询，以及聚合函数如mean、sum等的应用。接着，通过IMDB电影数据实战，展示了数据清洗、指标分析，包括导演电影数量、票房排名、电影风格分布和年份票房统计。最后，讲解了如何找到票房最高电影的方法。

摘要由CSDN通过智能技术生成

1.pandas补充

1.1.concat数据扩充与merge联合查询

我们如果要将两个表结构相同的数据表进行合并，可以使用pandas.concat()方法。

该方法第一个参数必须是一个元组，元组中的元素是你要合并的数据表。例如，

import pandas as pd
score = pd.read_csv("score.csv")  # 读取csv文件
score_concat = pd.read_csv("score_concat.csv")  # 读取csv文件
concat_result = pd.concat((score, score_concat))  # 将数据表合并

concat()方法主要是为了扩充数据量，便于分析规律。而我们接下来说的pandas.merge()方法主要是将两个表结构不同的表，通过相同的键连接在一起，也就是Mysql中的各种连接。

pandas.merge()方法的前两位参数是要连接的数据表；我们可以添加on参数选择使用指定的键进行表连接，注意on参数必须是列表的形式；how参数用于指定表连接方式，诸如，内连接、外连接、左连接和右连接，分别为inner、outer、left和right，默认为内连接。例如，

df_score_info = pd.read_csv("score_info.csv")
result_merge_inner = pd.merge(df_score, df_score_info, on=["学号"])  # 内连接
result_merge_outer = pd.merge(df_score, df_score_info, how="outer", on=["学号"])  # 外连接
result_merge_left = pd.merge(df_score, df_score_info, how="left", on=["学号"])  # 左连接
result_merge_right = pd.merge(df_score, df_score_info, how="right", on=["学号"])  # 右连接