关于pandas的describe里面的字段含义

最新推荐文章于 2024-03-04 20:41:00 发布

gf1136010396

最新推荐文章于 2024-03-04 20:41:00 发布

阅读量1k

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/gf1136010396/article/details/113461234

版权

describe

比如：df一个dataframe
# 欢迎使用Markdown编辑器
它的describe字段计算如下
在这里插入图片描述
其中
count：数出有该列有多少行数据
mean：该列的平均值
std：标准偏差值，即为方差开根号【√（Σ（x-E（x））²）/n】
min：最小值
25%：正好有25%的样本比这个值高
50%：正好有50%的样本比这个值高，即中位数
75%：正好有75%的样本比这个值高
max：最大值

而其中75百分位A列计算解释（25%同理）如下：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210131113256289.png

公式为：formula = percentile * n (n is number of values)
从小到大依次是
-0.439352、0.195702、0.394809
、0.404898、0.421427、0.665446

（6-1）/4×3=4.75
所以变为0.25×0.404898+0.75×0.421427
即75%×(0.421427-0.404898)+0.404898
=0.75×0.016529+0.404898
=0.41729475 即为所求
与显示0.417294省略后面两位不进行四舍五入。

首先确定四分位数的位置：
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
对于四分位数的确定，有不同的方法，另外一种方法基于N-1 基础。即
Q1的位置=1+（n-1）x 0.25
Q2的位置=1+（n-1）x 0.5
Q3的位置=1+（n-1）x 0.75
1、将数据从小到大排序，计为数组a（1 to n），n代表数据的长度
2、确定四分位数的位置：b= 1+(n-1) × 0.25= 2.25，b的整数部分计为c b的小数部分计为d
计算Q1：Q1=a©+[a(c+1)-a©]*d=a(2)+[a(3)-a(2)] *0.25 =15+（36-15）×（2.25-2）=20.25
3、计算如上 Q2与Q3的求法类似，四分位差=Q3-Q1

gf1136010396

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
关于pandas的describe里面的字段含义

describe比如：df一个dataframe它的describe字段计算如下其中count：数出有该列有多少行数据mean：该列的平均值std：标准偏差值min：最小值25%：正好有25%的样本比这个值高50%：正好有50%的样本比这个值高，即中位数75%：正好有75%的样本比这个值高max：最大值而其中75百分位A列计算解释（25%同理）如下：公式为：formula = percentile * n (n is number of values)从小到大依次是-0.43
复制链接

扫一扫