岭回归（Ridge Regression）

renshengbushexie

于 2024-07-16 23:47:04 发布

阅读量269

点赞数 4

文章标签：回归数据挖掘人工智能

本文链接：https://blog.csdn.net/qq_44133607/article/details/140479850

版权

岭回归（Ridge Regression）的理论知识推导

理论背景

岭回归是一种线性回归的变体，主要用于解决多重共线性问题，即当多个自变量高度相关时，传统的线性回归模型参数估计会变得不稳定，甚至无穷大。岭回归通过在最小二乘法的目标函数中加入一个惩罚项，使得参数估计变得更加稳定。

是一种线性回归的变体，它通过引入正则化项来减小回归系数的绝对值，防止模型过拟合。它在损失函数中加入了一个正则化项，使得回归系数的值尽量小，达到抑制模型复杂度的目的。

数学模型

目标函数

参数解读

实施步骤

数据准备：
- 收集数据。
- 将数据分为训练集和测试集。
数据预处理：
- 处理缺失值。
- 数据标准化或归一化（岭回归对数据的尺度敏感）。
建立模型：
- 使用训练数据拟合岭回归模型。
模型评估：
- 使用测试数据评估模型性能。
- 计算 $R^{2}$ 、均方误差（MSE）等指标。
优化模型：
- 调整正则化参数α以找到最佳模型。
预测：
- 使用训练好的模型进行预测。

未优化模型实例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1) * 0.5

# 数据分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 创建岭回归模型
ridge_reg = Ridge(alpha=1.0)
ridge_reg.fit(X_train_scaled, y_train)

# 进行预测
y_pred = ridge_reg.predict(X_test_scaled)

# 模型评估
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
print(f"Intercept: {ridge_reg.intercept_}")
print(f"Coefficients: {ridge_reg.coef_}")

# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Ridge Regression")
plt.legend()
plt.show()

可视化展示

结果解释

MSE：表示预测值与实际值之间的平均平方误差。值越小，模型性能越好。
$R^{2}$ ：决定系数，度量模型的拟合优度。值越接近1，模型解释力越强。
Intercept：截距，表示回归方程在y轴上的截距。
Coefficients：回归系数，表示自变量对因变量的影响。

优化后的模型实例

from sklearn.linear_model import RidgeCV

# 创建带交叉验证的岭回归模型
ridge_cv = RidgeCV(alphas=np.logspace(-6, 6, 13), scoring='neg_mean_squared_error', cv=5)
ridge_cv.fit(X_train_scaled, y_train)

# 进行预测
y_pred_cv = ridge_cv.predict(X_test_scaled)

# 模型评估
mse_cv = mean_squared_error(y_test, y_pred_cv)
r2_cv = r2_score(y_test, y_pred_cv)

print(f"Best Alpha: {ridge_cv.alpha_}")
print(f"Mean Squared Error (CV): {mse_cv}")
print(f"R^2 Score (CV): {r2_cv}")
print(f"Intercept (CV): {ridge_cv.intercept_}")
print(f"Coefficients (CV): {ridge_cv.coef_}")

# 可视化结果
plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.plot(X_test, y_pred_cv, color='red', label='Predicted')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Ridge Regression with Cross-Validation")
plt.legend()
plt.show()

结果解释

Best Alpha：通过交叉验证选择的最佳正则化参数。
MSE (CV)：交叉验证后的均方误差。
$R^{2}$ (CV)：交叉验证后的决定系数。
Intercept (CV)：交叉验证后的截距。
Coefficients (CV)：交叉验证后的回归系数。

总结

通过两个实例可以看出，未优化的岭回归模型使用默认的正则化参数，而优化后的模型通过交叉验证选择了最佳的正则化参数，从而提高了模型的预测性能。通过这种方式，可以更好地解决多重共线性问题，提高模型的泛化能力。

renshengbushexie

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
岭回归（Ridge Regression）

通过两个实例可以看出，未优化的岭回归模型使用默认的正则化参数，而优化后的模型通过交叉验证选择了最佳的正则化参数，从而提高了模型的预测性能。通过这种方式，可以更好地解决多重共线性问题，提高模型的泛化能力。
复制链接

扫一扫