Box-Cox变换

最新推荐文章于 2024-08-12 18:25:12 发布

allen sue

最新推荐文章于 2024-08-12 18:25:12 发布

阅读量3.6k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/fish2009122/article/details/107553878

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

定义：一种广义幂变换方法，是统计建模中常用的一种数据变换
目的
- 用于连续变量不满足正态分布的情况
- Box-Cox变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性
- 改善数据的正态性、对称性和方差相等性，但方差齐性的问题不一定会消失，做过之后仍然需要做方差齐性的检验，看是否还需要采用其他方法
公式
$y(\lambda) = \begin{cases} \frac{y^{\lambda} - 1}{\lambda} & \lambda \neq 0 \\ \ln(y) & \lambda = 0 \end{cases}$
- 条件
  - $y$ 为连续变量
  - $\ge 0$ 。当 $\lt 0$ 时，对原始数据同加一个常数 $a$ ，使得 $\ge 0$
- 特殊情况
  - $\lambda = 0$ ：对数变换
  - $\lambda = -1$ ：倒数变换
  - $\lambda = 0.5$ ：平方根变换
- 参数 $\lambda$ 的估计方法
  - 最大似然估计
  - Bayes方法
- 逆公式
  $\begin{cases} (1 + \lambda \times y^{\lambda})^{\frac{1}{\lambda}} & \lambda \neq 0 \\ e^{y^{\lambda}} & \lambda = 0 \end{cases}$
其它的转换方法
- 非正态
  - 对数转换： $\ln(y)$
  - 平方根转换： $\sqrt{y}$
  - 倒数转换： $\frac{1}{y}$
  - 平方根取倒数转换： $\frac{1}{\sqrt{y}}$
  - 平方根后再取反正弦转换： $\arcsin(\sqrt{y})$
  - 幂转换： $\frac{y^{\lambda} - 1}{{\bar{y}}^{\lambda + 1}}, \bar{y} = (\prod_{i=1}^{N}{y})^{1/n}$
- 标准化/无量纲化
  - 最大最小标准化： $\frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)}$
  - z-score变换： $\frac{x - \bar{x}}{\sigma}$
- sklearn
  - 二值化(转换为0或1)：sklearn.preprocessing.Binarizer
  - 自定义转换器：sklearn.preprocessing.FunctionTransformer
  - 连续数据离散化：sklearn.preprocessing.KBinsDiscretizer
  - 标签二值化
    - sklearn.preprocessing.LabelBinarizer
    - sklearn.preprocessing.label_binarize
  - 对目标标签进行 $0$ 到 $n - 1$ 的编码：sklearn.preprocessing.LabelEncoder
  - 除以最大值来缩小特征：sklearn.preprocessing.MaxAbsScaler
  - 指定范围变换/无量纲化
    - $x_{\text{new}} = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)}$
    - $x_{\text{scaled}} = x_{\text{new}} \times (\text{max} - \text{min}) + \text{min}$
    - sklearn.preprocessing.MinMaxScaler
    - sklearn.preprocessing.minmax_scale
  - 归一化
    - sklearn.preprocessing.Normalizer
    - sklearn.preprocessing.normalize
  - 分类编码数组OneHot/哑编码：sklearn.preprocessing.OneHotEncoder
  - 分类特征转为数字：sklearn.preprocessing.OrdinalEncoder
  - 生成多项式和交互特征（广义线性回归）：sklearn.preprocessing.PolynomialFeatures
  - 幂变换，使得数据更接近正态(近Box-Cox)
    - sklearn.preprocessing.PowerTransformer
    - sklearn.preprocessing.power_transform
  - 分位数变换：
    - sklearn.preprocessing.QuantileTransformer
    - sklearn.preprocessing.quantile_transform
  - 使用统计的方法缩放特征
    - sklearn.preprocessing.RobustScaler
    - sklearn.preprocessing.robust_scale
  - 标准化/z-score变换/无量纲化
    - sklearn.preprocessing.StandardScale
    - sklearn.preprocessing.scale
  - 稀疏矩阵阈值处理：sklearn.preprocessing.binarize
  - 缩放至 $[- 1, 1]$ 且不破坏其稀疏性：sklearn.preprocessing.maxabs_scale
代码
- R
  - $\lambda$ 参数估计
    - lam <- powerTransform(formula)
    - boxcox(lm_model, lambda=seq(0, 1, by=0.1))
  - 变换
    - y_new <- bcPower(y, lam$lambda)
    - Ylam<- (Y^lambda-1)/lambda
    - lm_model<-lm(Ylam~X)
- Python：scipy.stats.boxcox
  - 官方文档API
  - 输入
    - x
    - lmbda：default None。box-cox转换的 $\lambda$ 参数。若为None，则使用最大似然估计获取最佳值（第二个返回参数）
    - alpha：default None。若为None，则不返回第三个参数，否则按100 * (1-alpha)%来返回box-cox转换的 $\lambda$ 参数的置信区间
  - 输出
    - boxcox：转换后的值
    - maxlog：第二个参数：box-cox转换的 $\lambda$ 参数
    - (min_ci, max_ci)：第三个参数： $\lambda$ 的置信区间
Reference
- 百度百科