数据分析10

村口杨大爷

于 2022-08-21 21:37:19 发布

阅读量107

点赞数

分类专栏： python 文章标签：数据分析 pandas python

本文链接：https://blog.csdn.net/qq_62262691/article/details/126455465

版权

python 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

本文通过实例介绍了如何利用Pandas的groupby函数对数据进行分组聚合，包括统计不同国家和省份的星巴克店铺数量。首先，通过读取csv文件获取数据，然后针对中国数据进行筛选，按照省份进行分组计数。接着，进一步演示了按国家和省份两个条件分组，并将结果转换为DataFrame。最后，探讨了Pandas中索引和复合索引的使用，包括创建、修改和重新设置索引的操作。

摘要由CSDN通过智能技术生成

分组聚合案例之groupby

现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情况，那么应该怎么办？

grouped = df.groupby(by="columns_name")

grouped是一个DataFrameGroupBy对象，是可迭代的

grouped中的每一个元素是一个元组元组里面是（索引(分组的值)，分组之后的DataFrame）

groupby案例一

获取数据

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
 
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
print(df.info())
print(df.head(1))

中国每个省份星巴克的数量的情况

# 中国每个省份星巴克的数量的情况
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
 
#获取数据
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
 
#取出中国的数据
cn_df = df[df["Country"]=="CN"]
 
#按照省分组
grouped = cn_df.groupby(by="State/Province").count()
print(grouped["Brand"])

groupby案例二

#统计星巴克的数量，按照国家和省份进行分组
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
 
#获取数据
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
 
#数据按照多个条件进行分组
grouped = df.groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped["Brand"])
print(type(grouped["Brand"]))#<class 'pandas.core.series.Series'>
 
#使其返回DataFrame,在"Brand"上多加个方括号
#数据按照多个条件进行分组
grouped = df.groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped[["Brand"]])
print(type(grouped[["Brand"]]))

前两列都是索引，第三列是数据，之所以有两列索引是因为分组时有两个条件，整个数据是Series类型。

索引和复合索引

索引的简单操作

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
 
#index表示的是列标签，columns表示的是行标签
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","C"],columns=list("nmx"))
# print(df1,df1.index)
# print("*"*100)
 
#修改索引
df1.index = ["a","b","c"]
print(df1,df1.index)
print("*"*100)
 
#重新设置索引
print(df1.reindex(list("abx")))
print(df1,df1.index)
print("*"*100)
 
#指定某一列作为索引,drop表示是否在数据中删除该索引
print(df1.set_index("n",drop=False))
print(df1.index)
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","C"],columns=list("nmx"))
print(df1.set_index("n"))
print(df1.index)
print("*"*100)
 
#可以设置两列索引
df1 = pd.DataFrame(np.ones(((3,3))),index=["A","B","C"],columns=list("nmx"))
print(df1)
print(df1.set_index(["n","m"]))
print("*"*100)
 
 
#返回index唯一值
print(df1)
print(df1.index.unique())
print(df1.loc["A"].unique())