原标题:关于偏度与峰度的一些探索
毫无疑问,数据的集中趋势和离散趋势是数据分布的最主要两个特征。因此,我们常常会借助算术平均数,中位数,方差,四分位数等指标进行描述性的统计分析,就正如我们经常讨论的正态分布,两个参数均值和标准差正是对应了集中趋势指标和离散趋势指标。
但实际上,数据的分布形态各异,很可能偏离于我们原有的假设分布,例如可能数据分布并不对称,例如数据分布较为“陡峭”,而为了研究这些特征以及与正态分布的偏离程度,我们还需要其他的判定指标,偏度和峰度。
一些预备知识
对于随机变量X,假若
存在,则称它为随机变量X的k阶原点矩;若
存在,则称它为随机变量X的k阶中心矩;一般,我们使用矩来描述随机变量的特征,例如随机变量的数学期望就是一阶原点矩
,方差则是二阶中心矩
。
1. 偏度
偏度,Skewness,是研究数据分布对称的统计量。通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向。
具体来说,对于随机变量X,我们定义偏度为其的三阶标准中心矩: