岭回归(Ridge Regression)

最新推荐文章于 2024-09-21 10:37:30 发布

weixin_34014555

最新推荐文章于 2024-09-21 10:37:30 发布

阅读量461

点赞数

文章标签：人工智能数据结构与算法 matlab

一、一般线性回归遇到的问题

在处理复杂的数据的回归问题时，普通的线性回归会遇到一些问题，主要表现在：

预测精度：这里要处理好这样一对为题，即样本的数量和特征的数量
- $n\gg p$ 时，最小二乘回归会有较小的方差
- $n\approx p$ 时，容易产生过拟合
- $n< p$ 时，最小二乘回归得不到有意义的结果
模型的解释能力：如果模型中的特征之间有相互关系，这样会增加模型的复杂程度，并且对整个模型的解释能力并没有提高，这时，我们就要进行特征选择。

以上的这些问题，主要就是表现在模型的方差和偏差问题上，这样的关系可以通过下图说明：

（摘自：机器学习实战）

方差指的是模型之间的差异，而偏差指的是模型预测值和数据之间的差异。我们需要找到方差和偏差的折中。

在进行特征选择时，一般有三种方式：

岭回归(Ridge Regression)是在平方误差的基础上增加正则项

$\sum_{i=1}^{n}\left ( y_i-\sum_{j=0}^{p}w_jx_{ij} \right )^2+\lambda \sum_{j=0}^{p}w^2_j$ , $\lambda > 0$

通过确定 $\lambda$ 的值可以使得在方差和偏差之间达到平衡：随着 $\lambda$ 的增大，模型方差减小而偏差增大。

对 $w$ 求导，结果为

$2X^T\left ( Y-XW \right )-2\lambda W$

令其为0，可求得 $w$ 的值：

$\hat{w}=\left ( X^TX+\lambda I \right )^{-1}X^TY$

我们去探讨一下取不同的 $\lambda$ 对整个模型的影响。

MATLAB代码

主函数

[plain] view plain copy

岭回归求回归系数的函数

[plain] view plain copy

http://blog.csdn.net/google19890102/article/details/27228279

数值计算方法的“稳定性”是指在计算过程中舍入误差是可以控制的。

对于有些矩阵，矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大，这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说，如果主元（即对角线上的元素）上的元素很小，在计算时就会表现出病态的特征。

回归分析中常用的最小二乘法是一种无偏估计。

$XB=Y$