前言
此系列方向调整。介绍项目实战中常用的数据处理操作,附Python代码。讲求理解其作用,但不深究背后之数学原理(基本不会出现数学公式)。
偏度
搭建模型,特别是线性模型是希望数据符合正态分布的,但现实中的数据并不符合。
今天讲讨论其中的一种情况。
长跑比赛中,跑得最快的几个人之间相差的时间很短。而最慢的跑步者之间,跑步完成时间差异将非常大。这种现象被称为“异方差性”。在这个例子中,变异量取决于平均值(完成时间短的差异小,完成时间长的差异大)。
画出分布图可以看到,这显然不是正态分布的钟形曲线。为了解决这个问题,就需要转化数据使之符合正态分布。但开始之前,我们需要衡量上图的这种“偏离”程度。于是我们引入“偏度”这个概念。
偏度skewness,表征分布函数曲线相对于平均值的不对称程度。直观看来就是分布函数曲线尾部的相对长度。
正态分布的偏度为0,则:两侧尾部长度对称;
偏度为负,即负偏离(左偏离),则:数据位于平均值左边的比右边的少,直观表现为左边的尾部相对于右边的尾部要长。
偏度为正,即正偏离(右偏态),则:数据位于平均值右边的比左边的少,直观表现为右边的尾部相对于左边的尾部要长。
右偏时:平均数>中位数>众数,左偏时:众数>中位数>平均数。正态分布三者相等。