box-cox变换

最新推荐文章于 2025-07-17 16:23:18 发布

条件漫步

最新推荐文章于 2025-07-17 16:23:18 发布

阅读量1.3w

点赞数 11

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenhepg/article/details/115086477

机器学习专栏收录该内容

30 篇文章

订阅专栏

@创建于：20210322
@修改于：20210322

文章目录

1、简介

Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法，是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。

Box-Cox变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。
Box-Cox变换的主要特点是引入一个参数，通过数据本身估计该参数进而确定应采取的数据变换形式，Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性，对许多实际数据都是行之有效的。
Box-Cox变换即将数据转换为满足正态分布的数据

2、理论知识

（1）数学公式
在这里插入图片描述

（2）特殊情况
当 λ 分别取下列数值时，我们会得到一系列耳熟能详的函数
在这里插入图片描述
一般常用的是整数，若计算的 $\lambda$ 为非整数时，可以使用其临近的值。

3、python使用

（1）非负性
python中，Box-Cox的y>0，否则会报错，即：ValueError: Data must be positive.
所以对于y<0的情况，可以给y加上一个常数C进行调整，即得如下所示：
在这里插入图片描述
（2）正向Box-Cox使用
首先该变换均在scipy模块之下，主要有以下两个地方：

from scipy.stats import boxcox   # 1
from scipy.special import boxcox   # 2

区别在于，1中包含了box-cox中的lambda计算（即不需要给函数boxcox输入参数lmbda，boxcox返回值中就有lambda），所以其格式为：

y, lambda0 = boxcox(x, lmbda=None, alpha=None)

lambda的计算方法一般为最大似然估计方法和Bayes方法。

而2中不包含lambda的计算，所以其函数参数必填的为数据data和lambda。

y = boxcox(x1, x2, *args, **kwargs)

（3）逆向Box-Cox变换
通常我们在Box-cox变换之后，将预处理后的数据投入到模型中进行训练，如果变换处理的是标签，那么还需要对测试集的预测值进行反Box-Cox变换，Python实现如下：

from scipy.special import inv_boxcox
y = inv_boxcox(x1, lambda)

其中x为需要进行反Box-Cox变换的数据，lamda为训练集Box-Cox时使用的lambda，一般即为上文中stats.boxcox()返回的第二个参数。需要注意：如果在训练集Box-Cox变换时使用了C常数进行了自变量的非零处理，那么还需要再反变换之后减去这个C常数。

4、参考文献

box-cox变换
 BoxCox以及反变换的简介和Python实现

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。