接上次学习,本次主要记录groupby的使用(跟B站教程学的,自己整理改了改),对应的表格数据可以从下面链接中下载,使用的时候注意路径要正确,我这里直接保存到运行的文件夹了。
使用的表格数据集dataset.csv提取链接:
链接:https://pan.baidu.com/s/1WLIoQJ3iLJt7f_DjDvOEZQ?pwd=mzld
提取码:mzld
下面开始正式内容(由于本人较懒,代码直接用图片代替了,不喜请莫怪哈)另外很多东西的学习都要自己编写代码尝试,只有真正去编写了,或许才会真学到东西:
#调用基本函数对df进行处理:
下面是代码区,具体解释看上面:
#2.groupby使用
import pandas as pd
df = pd.read_csv("dataset.csv")
df.head(20)
for i in ["A", "B", "C"]:
print(df[df["country"]==i]["age"].mean())
df.groupby("country")["age"].mean()
df.groupby("sex")["age"].mean()
# 3.数值计算
# 仍然以dataset.csv文件举例:
df # 看下数据
# 基本处理:
print(df["age"].min())
print(df["age"].max())
print(df["age"].mean())
print(df["age"].median())
# 重点
#(1) value_counts()使用 :值统计,也就是说进行对应标签中相同值的统计,其具有参数:升降序参数
#(ascending,decending),分组参数(bins=组别)
df["age"].value_counts(ascending=True, bins=3) # 进行"age"中相同年龄个数的统计,并分为三组
df"sex"].value_counts() # 进行"sex"中相同性别的人数统计
# (2)count()统计函数,进行某一标签中样本数量统计
df.count()
df["sex"].count()
# (3)二元计算:协方差与相关系数
#(3.1)协方差:.cov
df.cov()
#(3.2)相关系数
df.corr()