Python 数据分析5：Pandas DataFrame数据的合并、分组聚合

最新推荐文章于 2024-06-01 17:54:16 发布

Hinomoto Oniko

最新推荐文章于 2024-06-01 17:54:16 发布

阅读量1k

点赞数

分类专栏： Python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/Amzmks/article/details/118739104

版权

Python 专栏收录该内容

81 篇文章 9 订阅

订阅专栏

本文介绍了Pandas库中数据合并、分组聚合、索引管理以及透视表和交叉表的使用方法。通过实例展示了如何统计不同国家的星巴克数量、中国各省份的星巴克分布以及书籍年份与评分情况。同时，讲解了如何利用pivot_table创建透视表和crosstab生成交叉表，以进行更深入的数据分析。

摘要由CSDN通过智能技术生成

1. 数据合并

df1.join(df2) 把行索引相同的数据合并到一起，缺少的填NaN

df1.merge(df3, on='a') 相当于SQL中的连表查询，按a列相同的属性连接参数how='outer'外连接 left左连接 right右连接

2. 分组聚合案例：星巴克

统计美国和中国的星巴克数量，显示中国每个省份星巴克数量的情况

链接：https://pan.baidu.com/s/1fFeNmrNf1Ug0CLDS3v80zw
提取码：nlhp

df.groupby(by="xx") 按照xx列分组，并可以进行聚合函数的计算

import pandas as pd

starbucks_df = pd.read_csv("starbucks_store_worldwide.csv")
starbucks_count = starbucks_df.groupby(by="Country")["Brand"].count()
print(starbucks_count["CN"])
print(starbucks_count["US"])

china_data = starbucks_df.groupby(by=["Country", "State/Province"])["Brand"].count()["CN"]
print(china_data)

3. 索引和复合索引

df.index 获取/指定索引

df.set_index("xx") 指定某一列为索引

4. 案例：图书

统计不同年份书的数量和平均评分情况

链接：https://pan.baidu.com/s/1vn6ofoLvql8w84XfDIN01w
提取码：le60

import pandas as pd
books_df = pd.read_csv("books.csv")

year_count = books_df.groupby(by="original_publication_year")["id"].count()
print(year_count)

average_rating = books_df.groupby(by="original_publication_year")["average_rating"].mean()
print(average_rating)

5. 透视表、交叉表

5.1 透视表

透视表可以动态地排布数据动态并且分类汇总，以便按照不同方式分析数据，也可以重新安排行号、列标。