-
偏度
偏度(Skewness)用来描述数据分布的对称性。
- 当偏度 <0 时,称为负偏,数据出现左侧长尾;
- 当偏度>0时,称为正偏,数据出现右侧长尾。
正态分布是对称的,其偏度为 0。
当数据偏度为 0 时,表示数据相对均匀的分布在平均值两侧,但不一定是正态分布。
当偏度绝对值过大时,长尾的一侧出现极端值的可能性较高。
python 中可使用如下方式计算偏度:
import scipy result = scipy.stats.skew(data)
下图是两个偏度值不同( − 0.559 / 1.508 -0.559 / 1.508 −0.559/1.508)的分布:
-
峰度
用来描述数据分布陡峭或是平滑的情况。
- 峰度越大,分布越陡峭;
- 峰度越小,分布越平缓。
正态分布的峰度为 3 3 3,为方便计算,将峰度值 − 3 -3 −3,因此正态分布的峰度变为 0 0 0.
在方差相同的情况下,峰度越大,存在极端值的可能性越高。
python 中可使用如下方式计算偏度:
import scipy result = scipy.stats.kurtosis(data)
下图是两个峰度值不同( − 0.641 / − 0.843 -0.641 / -0.843 −0.641/−0.843)的分布:
特征工程 - 数据分析 - 峰度 and 偏度
最新推荐文章于 2024-09-03 11:10:19 发布