pandas由入门到精通-描述性统计量


本文介绍pandas中一些常用的描述性统计量相关知识,包括pandas统计函数、相关系数与协方差、唯一值、频次统计和成员关系。希望可以帮助到有需要的小伙伴。

描述性统计量

pandas 统计函数

从 Series 中提取单个值(如总和或平均值)的方法,或从 DataFrame 的行或列中提取一系列值的方法。与 NumPy 数组上的类似方法相比,它们具有针对缺失数据的内置处理,默认跳过。

  • 以sum举例
#默认沿行计算,得到每一列的和
df.sum()
df.sum(axis='index')
#通过制定axis 变为沿列计算,得到每一行的和
df.sum(axis='columns')

#若不想跳过缺失数据,某行中有NA 则结果就为NA,使用 skipna
df.sum(axis='columns',skipna=False)

可以选择的参数:
在这里插入图片描述

  • 求达到最大值时的索引 df.idxmax()
  • 数字类型和非数字类型统计描述 df.describe()
    数字类型返回非零计数、均值、方差、最大最小值等。非数字烈性返回元素出现的频次
  • 其他描述性统计方法
    在这里插入图片描述
    在这里插入图片描述

相关与协方差

  • 相关性
# 返回矩阵各个列之间的相关性系数
df.corr()

#计算某两列之间的相关性
df['col1'].corr(df['col2'])

#计算某列与整个矩阵之间的相关性
df.corrwith(df['col']
  • 协方差
# 返回矩阵各个列之间的协方差
df.cov()

#计算某两列之间的协方差
df['col1'].cov(df['col2'])

在这里插入图片描述

唯一值,频次统计,成员关系

1. Series.unique()

返回Series中元素去掉重复值的结果,不排序

2. Series/DataFrame/array.value_counts()

Series 统计某一列各种值出现的次数
DataFrame 把每一行当做整体,统计其出现的次数

Series.value_counts()
df.value_counts()

#计算DF中每一列每个值出现的次数
df.apply(pd.value_counts).fillna(0)

3. Series.isin()

判断元素是否在Series中,返回布尔值

mask = obj.isin(['b','c'])
obj[mask]

4. get_indexer() 索引对应转换

Index_A.get_indexer(Series_B) 得到B的值对应的A种的索引的数组

to_match = pd.Series(['c','a','b','b','c','a'])
unique_vals = pd.Series(['c','b','a'])

indices = pd.Index(unique_vals).get_indexer(to_match)

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值