简单易学的机器学习算法——岭回归(Ridge Regression)

最新推荐文章于 2025-10-07 20:24:27 发布

原创最新推荐文章于 2025-10-07 20:24:27 发布 · 10w+ 阅读

166 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性回归 #岭回归 #Ridge Regression

机器学习，数据挖掘算法专栏收录该内容

60 篇文章

订阅专栏

本文讨论了线性回归在处理复杂数据时遇到的问题，包括预测精度、模型解释能力和过拟合风险。通过引入岭回归的概念，文章阐述了如何在方差和偏差之间寻找平衡，以及岭回归在特征选择和模型优化中的应用。通过MATLAB代码实现，展示了不同参数设置对模型性能的影响。

一、一般线性回归遇到的问题

在处理复杂的数据的回归问题时，普通的线性回归会遇到一些问题，主要表现在：

预测精度：这里要处理好这样一对为题，即样本的数量 $n$ 和特征的数量 $p$
- $n\gg p$ 时，最小二乘回归会有较小的方差
- $n\approx p$ 时，容易产生过拟合
- $n< p$ 时，最小二乘回归得不到有意义的结果
模型的解释能力：如果模型中的特征之间有相互关系，这样会增加模型的复杂程度，并且对整个模型的解释能力并没有提高，这时，我们就要进行特征选择。

以上的这些问题，主要就是表现在模型的方差和偏差问题上，这样的关系可以通过下图说明：

（摘自：机器学习实战）

方差指的是模型之间的差异，而偏差指的是模型预测值和数据之间的差异。我们需要找到方差和偏差的折中。

二、岭回归的概念

在进行特征选择时，一般有三种方式：

子集选择
收缩方式(Shrinkage method)，又称为正则化(Regularization)。主要包括岭回归个lasso回归。
维数缩减

岭回归(Ridge Regression)是在平方误差的基础上增加正则项

$\sum_{i=1}^{n}\left ( y_i-\sum_{j=0}^{p}w_jx_{ij} \right )^2+\lambda \sum_{j=0}^{p}w^2_j$ , $\lambda > 0$

通过确定 $\lambda$ 的值可以使得在方差和偏差之间达到平衡：随着 $\lambda$ 的增大，模型方差减小而偏差增大。

对 $w$ 求导，结果为

$2X^T\left ( Y-XW \right )-2\lambda W$

令其为0，可求得 $w$ 的值：

$\hat{w}=\left ( X^TX+\lambda I \right )^{-1}X^TY$

三、实验的过程

我们去探讨一下取不同的 $\lambda$ 对整个模型的影响。

MATLAB代码

主函数

%% 岭回归(Ridge Regression)

%导入数据
data = load('abalone.txt');
[m,n] = size(data);

dataX = data(:,1:8);%特征
dataY = data(:,9);%标签

%标准化
yMeans = mean(dataY);
for i = 1:m
    yMat(i,:) = dataY(i,:)-yMeans;
end

xMeans = mean(dataX);
xVars = var(dataX);
for i = 1:m
    xMat(i,:) = (dataX(i,:) - xMeans)./xVars;
end

% 运算30次
testNum = 30;
weights = zeros(testNum, n-1);
for i = 1:testNum
    w = ridgeRegression(xMat, yMat, exp(i-10));
    weights(i,:) = w';
end

% 画出随着参数lam
hold on
axis([-9 20 -1.0 2.5]);
xlabel log(lam);
ylabel weights;
for i = 1:n-1
    x = -9:20;
    y(1,:) = weights(:,i)';
    plot(x,y);
end

岭回归求回归系数的函数

function [ w ] = ridgeRegression( x, y, lam )
    xTx = x'*x;
    [m,n] = size(xTx);
    temp = xTx + eye(m,n)*lam;
    if det(temp) == 0
        disp('This matrix is singular, cannot do inverse');
    end
    w = temp^(-1)*x'*y;
end

8 条评论

欠阿贝尔两块钱 2020.07.07
https://archive.ics.uci.edu/ml/datasets/abalone，数据集是UCL的鲍鱼数据集
- wutheringcoo回复欠阿贝尔两块钱 2021.01.18
  数据集有问题，看着个：http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data

BAKAb 2020.06.04
画图那部分代码不太懂，权值那块。

weixin_45717244 2020.03.16
博主可以分享一下数据么，谢谢哦

weixin_44316924 2019.11.21
博主能分享一下数据吗万分感谢呢

我名字十一个字不信你数 2019.10.18
请问楼主使用的数据集可以发一份吗？？毕业论文是这个方向着急呐！谢谢！976077983@qq.com

Cinderella_Shanshan 2018.04.19
您好~想请教您关于岭回归的问题：正则化参数是如何选取的呢？在我的拟合中，所求的参数还在随正则化参数迅速变化，拟合优度R2已经开始急剧下降了。那正则化参数的平稳是其选择的标准之一吗？
- weixin_45815144回复Cinderella_Shanshan 2020.06.30
  请问一下，你的问题解决了吗？