pandas基础学习2——groupby与基础数值计算

最新推荐文章于 2024-05-21 21:15:00 发布

mainzld

最新推荐文章于 2024-05-21 21:15:00 发布

阅读量326

点赞数 1

文章标签：学习 python

本文链接：https://blog.csdn.net/mainzld/article/details/124793521

版权

本文介绍了Pandas库中GroupBy的使用方法，通过示例展示了如何根据国家和性别对年龄进行平均值计算。此外，还探讨了数值计算的相关函数，包括最小值、最大值、平均值、中位数以及value_counts和count方法的运用。同时，提到了协方差和相关系数的计算，帮助理解数据间的关联性。

摘要由CSDN通过智能技术生成

接上次学习，本次主要记录groupby的使用（跟B站教程学的，自己整理改了改），对应的表格数据可以从下面链接中下载，使用的时候注意路径要正确，我这里直接保存到运行的文件夹了。

使用的表格数据集dataset.csv提取链接：

链接：https://pan.baidu.com/s/1WLIoQJ3iLJt7f_DjDvOEZQ?pwd=mzld
提取码：mzld

下面开始正式内容（由于本人较懒，代码直接用图片代替了，不喜请莫怪哈）另外很多东西的学习都要自己编写代码尝试，只有真正去编写了，或许才会真学到东西：

#调用基本函数对df进行处理：

下面是代码区，具体解释看上面：

#2.groupby使用
import pandas as pd
df = pd.read_csv("dataset.csv")
df.head(20) 

for i in ["A", "B", "C"]:
    print(df[df["country"]==i]["age"].mean())

df.groupby("country")["age"].mean()

df.groupby("sex")["age"].mean()


# 3.数值计算
# 仍然以dataset.csv文件举例：
df # 看下数据
# 基本处理：
print(df["age"].min())
print(df["age"].max())
print(df["age"].mean())
print(df["age"].median())

# 重点
#(1) value_counts()使用 :值统计，也就是说进行对应标签中相同值的统计，其具有参数：升降序参数
#（ascending,decending）,分组参数（bins=组别）

df["age"].value_counts(ascending=True, bins=3) # 进行"age"中相同年龄个数的统计，并分为三组

df"sex"].value_counts()  # 进行"sex"中相同性别的人数统计

# (2)count()统计函数，进行某一标签中样本数量统计

df.count()

df["sex"].count()

# (3)二元计算:协方差与相关系数

#（3.1）协方差：.cov
df.cov()

#(3.2)相关系数
df.corr()