pandas基础学习2——groupby与基础数值计算

本文介绍了Pandas库中GroupBy的使用方法,通过示例展示了如何根据国家和性别对年龄进行平均值计算。此外,还探讨了数值计算的相关函数,包括最小值、最大值、平均值、中位数以及value_counts和count方法的运用。同时,提到了协方差和相关系数的计算,帮助理解数据间的关联性。
摘要由CSDN通过智能技术生成

        接上次学习,本次主要记录groupby的使用(跟B站教程学的,自己整理改了改),对应的表格数据可以从下面链接中下载,使用的时候注意路径要正确,我这里直接保存到运行的文件夹了。

使用的表格数据集dataset.csv提取链接:

链接:https://pan.baidu.com/s/1WLIoQJ3iLJt7f_DjDvOEZQ?pwd=mzld
提取码:mzld

        下面开始正式内容(由于本人较懒,代码直接用图片代替了,不喜请莫怪哈)另外很多东西的学习都要自己编写代码尝试,只有真正去编写了,或许才会真学到东西:

#调用基本函数对df进行处理:

下面是代码区,具体解释看上面:

#2.groupby使用
import pandas as pd
df = pd.read_csv("dataset.csv")
df.head(20) 

for i in ["A", "B", "C"]:
    print(df[df["country"]==i]["age"].mean())

df.groupby("country")["age"].mean()

df.groupby("sex")["age"].mean()


# 3.数值计算
# 仍然以dataset.csv文件举例:
df # 看下数据
# 基本处理:
print(df["age"].min())
print(df["age"].max())
print(df["age"].mean())
print(df["age"].median())

# 重点
#(1) value_counts()使用 :值统计,也就是说进行对应标签中相同值的统计,其具有参数:升降序参数
#(ascending,decending),分组参数(bins=组别)

df["age"].value_counts(ascending=True, bins=3) # 进行"age"中相同年龄个数的统计,并分为三组

df"sex"].value_counts()  # 进行"sex"中相同性别的人数统计

# (2)count()统计函数,进行某一标签中样本数量统计

df.count()

df["sex"].count()

# (3)二元计算:协方差与相关系数

#(3.1)协方差:.cov
df.cov()

#(3.2)相关系数
df.corr()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值