如下图,调用describe()函数时输出如下函数:
1.count:非空值总数
2.mean:非空值的平均值
3.std:方差
4.min:最小值
5. 25%:25%分位数
6. 50%:50%分位数(中位数)
7. 75%: 75%分位数
8.max: 最大值
9.dtype: 数据类型
对分位数的解释:查阅得如下资料:
分位值是随机变量的特征数之一。将随机变量分布曲线与X轴包围的面积作n等分,得n—1个值(X_1、X_2……X_(n-1)),这些值称为n分位值。参数统计中常常用到分位值这一概念。
简单来说就是把数据按从小到大顺序排列后,位置前x%的数的值。
计算公式:Px=L+i╱fx(n*x%-FL)
具体理解较为麻烦,按下不表。通俗理解为:将数据之间的间隔数除以100,乘以分位数值+1,得出该分位数在哪两个数之间,将较小的数加上两数差值与小数位乘积,即得该分位数。
例子:
-
步骤1:得出四分位间。
附表中有14个数据,共13个间隔,则四分位间为13/4=3.25
-
步骤2:计算25分位值。
第一个四分位值(即25分位值)=第(1+3.25)个数的数字,即第4个数字和第5个数字之间的0.25位置处,即:25+(36-25)*0.25=27.75。
其他参数含义:
1.unique: 唯一值数
2.top: 频数最高者
3.freq: 最高频数