pandas由入门到精通-描述性统计量_使用pandas对数据描述性统计-CSDN博客

本文链接：https://blog.csdn.net/qq_48081868/article/details/132512380

pandas基础介绍-命令模版

描述性统计量

本文介绍pandas中一些常用的描述性统计量相关知识，包括pandas统计函数、相关系数与协方差、唯一值、频次统计和成员关系。希望可以帮助到有需要的小伙伴。

描述性统计量

pandas 统计函数

从 Series 中提取单个值（如总和或平均值）的方法，或从 DataFrame 的行或列中提取一系列值的方法。与 NumPy 数组上的类似方法相比，它们具有针对缺失数据的内置处理，默认跳过。

以sum举例

#默认沿行计算，得到每一列的和
df.sum()
df.sum(axis='index')
#通过制定axis 变为沿列计算，得到每一行的和
df.sum(axis='columns')

#若不想跳过缺失数据，某行中有NA 则结果就为NA，使用 skipna
df.sum(axis='columns',skipna=False)

可以选择的参数：
在这里插入图片描述

求达到最大值时的索引 df.idxmax()
数字类型和非数字类型统计描述 df.describe()
数字类型返回非零计数、均值、方差、最大最小值等。非数字烈性返回元素出现的频次
其他描述性统计方法

唯一值，频次统计,成员关系

1. Series.unique()

返回Series中元素去掉重复值的结果，不排序

2. Series/DataFrame/array.value_counts()

Series 统计某一列各种值出现的次数
DataFrame 把每一行当做整体，统计其出现的次数

Series.value_counts()
df.value_counts()

#计算DF中每一列每个值出现的次数
df.apply(pd.value_counts).fillna(0)

3. Series.isin()

判断元素是否在Series中，返回布尔值

mask = obj.isin(['b','c'])
obj[mask]

4. get_indexer() 索引对应转换

Index_A.get_indexer(Series_B) 得到B的值对应的A种的索引的数组

to_match = pd.Series(['c','a','b','b','c','a'])
unique_vals = pd.Series(['c','b','a'])

indices = pd.Index(unique_vals).get_indexer(to_match)

在这里插入图片描述