关于pandas的describe里面的字段含义

describe

比如:df一个dataframe
# 欢迎使用Markdown编辑器
它的describe字段计算如下
在这里插入图片描述
其中
count:数出有该列有多少行数据
mean:该列的平均值
std:标准偏差值,即为方差开根号【√(Σ(x-E(x))²)/n】
min:最小值
25%:正好有25%的样本比这个值高
50%:正好有50%的样本比这个值高,即中位数
75%:正好有75%的样本比这个值高
max:最大值

而其中75百分位A列计算解释(25%同理)如下:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210131113256289.png

公式为:formula = percentile * n (n is number of values)
从小到大依次是
-0.439352、0.195702、0.394809
、0.404898、0.421427、0.665446

(6-1)/4×3=4.75
所以变为0.25×0.404898+0.75×0.421427
即75%×(0.421427-0.404898)+0.404898
=0.75×0.016529+0.404898
=0.41729475 即为所求
与显示0.417294省略后面两位不进行四舍五入。

首先确定四分位数的位置:
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。即
Q1的位置=1+(n-1)x 0.25
Q2的位置=1+(n-1)x 0.5
Q3的位置=1+(n-1)x 0.75
1、将数据从小到大排序,计为数组a(1 to n),n代表数据的长度
2、确定四分位数的位置:b= 1+(n-1) × 0.25= 2.25,b的整数部分计为c b的小数部分计为d
计算Q1:Q1=a©+[a(c+1)-a©]*d=a(2)+[a(3)-a(2)] *0.25 =15+(36-15)×(2.25-2)=20.25
3、计算如上 Q2与Q3的求法类似,四分位差=Q3-Q1

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值