Pandas---统计功能

最新推荐文章于 2024-03-07 06:30:00 发布

一个叫欧维的程序员在此写博客

最新推荐文章于 2024-03-07 06:30:00 发布

阅读量231

点赞数

分类专栏： Pandas 文章标签： pandas

本文链接：https://blog.csdn.net/qq_41982466/article/details/111593291

版权

Pandas 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

Dataframe 描述性统计和汇总统计

count()		非NA值的个数
describe()		计算Series和DataFrame各列的汇总统计集合
min(), max()		计算最小值、最大值
argmin(), argmax()		计算最小值与最大值所在的索引位置（整数）
idxmin(), idxmax()		计算最小值与最大值所在的索引标签
quantile()			计算样本的从0到间的分位数
sum()		加和
mean()		求均值
median()	中位数（50%分位数）
mad()		平均值的平均绝对偏差
prod()		所有值的积
var()		值的样本方差
std()		值的样本标准差
skew()		样本偏度（第三时刻）值
kurt()		样本峰度（第四时刻）值
cumsum()		累计值
cummin(), cummax()	累计值的最小值、最大值
cumprod()		值的累计积
diff()			计算第一个算术差值（对时间序列有用）
pct_change()	计算百分比
注：以上函数可设置axis属性值
相关性与协方差：
data.corr()、data.cov()		返回DataFrame两两列之间的相关性与协方差
data.corrwith(data['col'])	返回DataFrame中的各列与单列的相关性
取出单列的唯一值：
uniques = data['A'].unique()	返回其中的唯一值，返回值不一定排好序，可 uniques.sort()进行排序
返回单列包含各种值的个数：
data['A'].value_counts()	or	pd.value_counts(data['A'],sort=True)
data['A'].isin([1,3,5])	判断单列中的数值是否存在于给定的列表中