回归分析系列18— 平衡偏差与方差

技术与健康

于 2024-08-24 07:49:25 发布

阅读量208

点赞数 7

文章标签：回归

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Practicer2015/article/details/141215863

版权

22 平衡偏差与方差

22.1 偏差-方差权衡简介

在模型构建中，我们通常面临偏差（bias）与方差（variance）之间的权衡。偏差是指模型的预测与真实值之间的系统性误差，而方差则是指模型在不同训练集上的波动性。

高偏差通常意味着模型过于简单，无法捕捉数据中的复杂模式（即欠拟合）；高方差则意味着模型对训练数据过于敏感，导致在新数据上表现不佳（即过拟合）。

22.2 正则化与偏差-方差权衡

通过引入正则化项，可以有效控制模型的方差。例如，在线性回归中，我们可以使用岭回归（L2 正则化）或Lasso回归（L1 正则化）来平衡偏差和方差。

在Python中，scikit-learn提供了相关的正则化工具。

from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# 生成模拟数据
np.random.seed(42)
X = np.random.randn(100, 10)
y = np.dot(X, np.random.randn(10)) + np.random.randn(100)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 岭回归（L2正则化）
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
y_pred_ridge = ridge.predict(X_test)
mse_ridge = mean_squared_error(y_test, y_pred_ridge)

# Lasso回归（L1正则化）
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
y_pred_lasso = lasso.predict(X_test)
mse_lasso = mean_squared_error(y_test, y_pred_lasso)

print(f'Ridge MSE: {mse_ridge:.3f}')
print(f'Lasso MSE: {mse_lasso:.3f}')

在这个示例中，我们使用了岭回归和Lasso回归来演示如何通过正则化来减少方差，同时保持适当的偏差。

22.3 偏差-方差分解

偏差-方差分解是理解模型预测误差来源的关键工具。总的期望误差可以被分解为偏差平方、方差和不可约误差三部分。

偏差平方（Bias^2）： 反映了模型预测的系统性误差。
方差（Variance）： 反映了模型在不同训练集上的波动性。
不可约误差（Irreducible error）： 由数据本身的噪声引起，无法通过模型改进来减少。

# 生成更多数据，演示偏差-方差分解
from sklearn.utils import resample

n_bootstraps = 100
ridge_preds = np.zeros((n_bootstraps, X_test.shape[0]))
lasso_preds = np.zeros((n_bootstraps, X_test.shape[0]))

# 使用不同的bootstrap样本计算偏差和方差
for i in range(n_bootstraps):
    X_train_res, y_train_res = resample(X_train, y_train, random_state=i)
    
    ridge.fit(X_train_res, y_train_res)
    ridge_preds[i, :] = ridge.predict(X_test)
    
    lasso.fit(X_train_res, y_train_res)
    lasso_preds[i, :] = lasso.predict(X_test)

# 计算偏差、方差
ridge_bias = np.mean((np.mean(ridge_preds, axis=0) - y_test) ** 2)
ridge_variance = np.mean(np.var(ridge_preds, axis=0))

lasso_bias = np.mean((np.mean(lasso_preds, axis=0) - y_test) ** 2)
lasso_variance = np.mean(np.var(lasso_preds, axis=0))

print(f'Ridge Bias^2: {ridge_bias:.3f}, Variance: {ridge_variance:.3f}')
print(f'Lasso Bias^2: {lasso_bias:.3f}, Variance: {lasso_variance:.3f}')

在这段代码中，我们使用bootstrap方法估计了模型的偏差平方和方差，从而更好地理解模型的误差来源。

22.4 偏差-方差权衡的实际应用

在实际应用中，选择模型时需要平衡偏差和方差。通常我们可以通过交叉验证来选择最佳的正则化强度，从而在降低方差的同时控制偏差。

技术与健康

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
回归分析系列18— 平衡偏差与方差

在模型构建中，我们通常面临偏差（bias）与方差（variance）之间的权衡。偏差是指模型的预测与真实值之间的系统性误差，而方差则是指模型在不同训练集上的波动性。通过引入正则化项，可以有效控制模型的方差。例如，在线性回归中，我们可以使用岭回归（L2 正则化）或Lasso回归（L1 正则化）来平衡偏差和方差。在这段代码中，我们使用bootstrap方法估计了模型的偏差平方和方差，从而更好地理解模型的误差来源。在这个示例中，我们使用了岭回归和Lasso回归来演示如何通过正则化来减少方差，同时保持适当的偏差。
复制链接

扫一扫