Box-Cox变换改善数据的分布特性实践

最新推荐文章于 2025-03-24 20:33:50 发布

二分掌柜的

最新推荐文章于 2025-03-24 20:33:50 发布

阅读量1.7k

点赞数 28

分类专栏：数学物理文章标签： Box-Cox变换 Box-Cox

本文链接：https://blog.csdn.net/flyfish1986/article/details/141125871

版权

数学物理专栏收录该内容

74 篇文章

订阅专栏

Box-Cox变换改善数据的分布特性实践

flyfish

Box-Cox变换是一种用于数据变换的技术，常用于改善数据的分布特性。

在这里插入图片描述

使用Box-Cox变换的情况

数据不服从正态分布
在许多统计分析和建模方法中，正态性假设是一个重要的前提。例如，线性回归、t检验和ANOVA分析通常假设误差项服从正态分布。如果数据明显偏离正态分布，Box-Cox变换可以帮助将数据变换为更接近正态分布的形态。
处理异方差性
异方差性指的是数据的方差随均值变化而变化，这违反了许多模型假设的常方差性（即所有观测值的方差相同）。Box-Cox变换可以稳定方差，使得数据的方差在整个范围内更加均匀。
数据的对称性问题
当数据分布显著偏斜（即左偏或右偏）时，Box-Cox变换可以用于减小偏斜程度，使数据分布更加对称。这对于一些需要对称分布的统计方法尤其重要。
提高模型的解释能力和预测性能
通过Box-Cox变换改善数据分布后，所建立的统计模型通常能够更好地拟合数据，提高预测的准确性。此外，这还可能增强模型的解释能力，因为某些偏斜特性可能使得模型参数估计偏离真实值。
数据预处理步骤
在机器学习任务中，数据预处理是一个重要步骤。Box-Cox变换可以作为一种数据预处理方法，帮助清洗和标准化数据，特别是在构建模型之前。

不使用Box-Cox变换的情况

数据中存在负值或零值
Box-Cox变换要求所有数据为正值，因此不适用于数据中含有负数或零的情况。
数据分布已经近似正态
对于已经近似正态分布的数据，进行Box-Cox变换可能反而会引入不必要的复杂性。

Box-Cox变换的例子

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import boxcox
from scipy.stats import norm

# 生成一组非正态分布的随机数据
np.random.seed(0)
data = np.random.exponential(scale=2, size=1000)  # 指数分布数据

# 进行Box-Cox变换
data_boxcox, lambda_optimal = boxcox(data)

# 绘制原始数据和Box-Cox变换后的数据的直方图
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# 原始数据的直方图
ax[0].hist(data, bins=30, color='lightblue', alpha=0.7, density=True)
ax[0].set_title('Original Data Histogram')
ax[0].set_xlabel('Value')
ax[0].set_ylabel('Frequency')
# 绘制正态分布曲线以便比较
x = np.linspace(min(data), max(data), 1000)
ax[0].plot(x, norm.pdf(x, np.mean(data), np.std(data)), color='red', lw=2, label='Normal Distribution')
ax[0].legend()

# Box-Cox变换后的数据的直方图
ax[1].hist(data_boxcox, bins=30, color='lightgreen', alpha=0.7, density=True)
ax[1].set_title(f'Box-Cox Transformed Data (λ={lambda_optimal:.2f})')
ax[1].set_xlabel('Value')
ax[1].set_ylabel('Frequency')
# 绘制正态分布曲线以便比较
x_transformed = np.linspace(min(data_boxcox), max(data_boxcox), 1000)
ax[1].plot(x_transformed, norm.pdf(x_transformed, np.mean(data_boxcox), np.std(data_boxcox)), color='red', lw=2, label='Normal Distribution')
ax[1].legend()

plt.tight_layout()
plt.show()

# 打印最优的lambda值
print(f"The optimal lambda value for Box-Cox transformation is: {lambda_optimal:.4f}")

使用Box-Cox变换减少数据偏斜的例子

在这里插入图片描述

数据生成 ：
使用卡方分布生成一个右偏的数据集。卡方分布常见于自由度较小的情况下，其分布通常是右偏的。
这里使用了自由度为2的卡方分布，这通常会导致数据明显右偏。
计算偏斜度 ：
使用scipy.stats.skew计算原始数据和Box-Cox变换后数据的偏斜度。偏斜度为正表示右偏，偏斜度为负表示左偏，偏斜度为0表示对称分布。
Box-Cox变换 ：
使用scipy.stats.boxcox对数据进行Box-Cox变换，得到变换后的数据和最优 $\lambda$ 值。
结果可视化 ：
绘制原始数据的直方图和Box-Cox变换后的数据的直方图，并在标题中显示各自的偏斜度。观察结果，变换后的数据应该比原始数据更加对称。
输出最优 $\lambda$ 值 ：打印Box-Cox变换的最优 $\lambda$ 值。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import boxcox
from scipy.stats import skew

# 生成一个右偏的数据集（例如，卡方分布）
np.random.seed(0)
data = np.random.chisquare(df=2, size=1000)  # 自由度为2的卡方分布

# 计算原始数据的偏斜度
original_skewness = skew(data)

# 进行Box-Cox变换
data_boxcox, lambda_optimal = boxcox(data)

# 计算Box-Cox变换后数据的偏斜度
boxcox_skewness = skew(data_boxcox)

# 绘制原始数据和Box-Cox变换后的数据的直方图
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# 原始数据的直方图
ax[0].hist(data, bins=30, color='lightblue', alpha=0.7, density=True)
ax[0].set_title(f'Original Data Histogram\nSkewness = {original_skewness:.2f}')
ax[0].set_xlabel('Value')
ax[0].set_ylabel('Frequency')

# Box-Cox变换后的数据的直方图
ax[1].hist(data_boxcox, bins=30, color='lightgreen', alpha=0.7, density=True)
ax[1].set_title(f'Box-Cox Transformed Data\nSkewness = {boxcox_skewness:.2f}')
ax[1].set_xlabel('Value')
ax[1].set_ylabel('Frequency')

plt.tight_layout()
plt.show()

# 打印最优的lambda值
print(f"The optimal lambda value for Box-Cox transformation is: {lambda_optimal:.4f}")

`boxcox` 函数

boxcox 是 scipy.stats 模块中的一个函数，用于对数据进行 Box-Cox 变换。Box-Cox 变换的目的是使数据更接近正态分布。

语法

scipy.stats.boxcox(x, lmbda=None, alpha=None, optimizer=None)

参数

x: 要进行变换的输入数据。必须是正数，不能包含负数或零。

lmbda: (可选) 变换中的 $\lambda$ 参数。若未指定，则函数将根据数据自动选择最优的 $\lambda$ 。

alpha: (可选) 置信区间的置信度。如果提供此参数，函数会返回 $\lambda$ 的 $(1-\alpha) \times 100\%$ 的置信区间。

optimizer: (可选) 优化器函数，用于选择最优的 $\lambda$ 。默认使用 scipy.optimize.brent。

返回值

y: 变换后的数据。

lmbda: 使用的 $\lambda$ 值。如果输入参数中未提供 $\lambda$ ，则为自动选择的最优 $\lambda$ 。

示例

import numpy as np
from scipy.stats import boxcox

# 生成一组正数数据
data = np.random.exponential(scale=2, size=1000)

# 进行 Box-Cox 变换
data_boxcox, lambda_optimal = boxcox(data)

print(f"The optimal lambda value is: {lambda_optimal}")

`skew` 函数

skew 是 scipy.stats 模块中的一个函数，用于计算数据的偏斜度（skewness）。偏斜度是对称性的一种度量。

语法

scipy.stats.skew(a, axis=0, bias=True, nan_policy='propagate')

参数

a: 输入数据数组或序列。可以是多维数组。

axis: (可选) 计算偏斜度的轴。默认值为 0，即沿数组的第一个轴计算。如果为 None，将对整个数组计算偏斜度。

bias: (可选) 一个布尔值，默认为 True。如果为 False，则计算的偏斜度会进行无偏估计。

nan_policy: (可选) 指定遇到 NaN 值的处理方式。'propagate'（默认值）返回 NaN，'omit' 忽略 NaN 值进行计算，'raise' 会抛出错误。

返回值

skewness: 数据的偏斜度。正值表示右偏，负值表示左偏，零表示对称。

示例

import numpy as np
from scipy.stats import skew

# 生成一组数据
data = np.random.chisquare(df=2, size=1000)

# 计算偏斜度
data_skewness = skew(data)

print(f"The skewness of the data is: {data_skewness}")