python boxcox1p_数据骚操作（二）：偏度和Box Cox转换

最新推荐文章于 2023-04-10 16:55:59 发布

weixin_39781599

最新推荐文章于 2023-04-10 16:55:59 发布

阅读量1.2k

点赞数

文章标签： python boxcox1p

前言此系列方向调整。介绍项目实战中常用的数据处理操作，附Python代码。讲求理解其作用，但不深究背后之数学原理(基本不会出现数学公式)。偏度搭建模型，特别是线性模型是希望数据符合正态分布的，但现实中的数据并不符合。今天讲讨论其中的一种情况。长跑比赛中，跑得最快的几个人之间相差的时间很短。而最慢的跑步者之间，跑步完成时间差异将非常大。这种现象被称为“异方差性”。在这个例子中，变异量取决于平均值(完...

摘要由CSDN通过智能技术生成

前言

此系列方向调整。介绍项目实战中常用的数据处理操作，附Python代码。讲求理解其作用，但不深究背后之数学原理(基本不会出现数学公式)。

偏度

搭建模型，特别是线性模型是希望数据符合正态分布的，但现实中的数据并不符合。

今天讲讨论其中的一种情况。

长跑比赛中，跑得最快的几个人之间相差的时间很短。而最慢的跑步者之间，跑步完成时间差异将非常大。这种现象被称为“异方差性”。在这个例子中，变异量取决于平均值(完成时间短的差异小，完成时间长的差异大)。

画出分布图可以看到，这显然不是正态分布的钟形曲线。为了解决这个问题，就需要转化数据使之符合正态分布。但开始之前，我们需要衡量上图的这种“偏离”程度。于是我们引入“偏度”这个概念。

偏度skewness，表征分布函数曲线相对于平均值的不对称程度。直观看来就是分布函数曲线尾部的相对长度。

正态分布的偏度为0，则：两侧尾部长度对称；

偏度为负，即负偏离(左偏离)，则：数据位于平均值左边的比右边的少，直观表现为左边的尾部相对于右边的尾部要长。

偏度为正，即正偏离(右偏态)，则：数据位于平均值右边的比左边的少，直观表现为右边的尾部相对于左边的尾部要长。

右偏时：平均数>中位数>众数，左偏时：众数>中位数>平均数。正态分布三者相等。

最低0.47元/天解锁文章

weixin_39781599

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python boxcox1p_数据骚操作（二）：偏度和Box Cox转换

前言此系列方向调整。介绍项目实战中常用的数据处理操作，附Python代码。讲求理解其作用，但不深究背后之数学原理(基本不会出现数学公式)。偏度搭建模型，特别是线性模型是希望数据符合正态分布的，但现实中的数据并不符合。今天讲讨论其中的一种情况。长跑比赛中，跑得最快的几个人之间相差的时间很短。而最慢的跑步者之间，跑步完成时间差异将非常大。这种现象被称为“异方差性”。在这个例子中，变异量取决于平均值(完...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。