最小角回归（Least Angle Regression）

最新推荐文章于 2024-05-09 21:17:36 发布

godspeedkaka

最新推荐文章于 2024-05-09 21:17:36 发布

阅读量2.4w

点赞数 13

分类专栏：机器学习文章标签：统计学习基础最小角回归 LARS 机器学习

本文链接：https://blog.csdn.net/u014664226/article/details/52240272

版权

最小角回归和其他方法的比较

逐步选择（forward selection）算法（例如forward stepwise regression）在进行子集选择的时候可能会显得太具有“侵略性”（aggressive），因为每次在选择一个变量后都要重新拟和模型，比如我们第一步选择了一个变量 $x_1$ ，在第二步中可能就会删除掉一个和 $x_1$ 相关但也很重要的变量。
Forward Stagewise是一种比起上面的逐步选择方法更谨慎的方法，但是可能要经过很多步才能到达最后的模型。具体来说，算法每次在变量的solution path上前进一小步，而forward stepwise regression每次都前进一大步。这样一来，Forward Stagewise可以避免漏掉某些重要的和响应相关的变量，但也带来了高昂的计算代价。
Forwad Stagewise有着和Lasso很大的相似性，下图是二者的参数估计，其中 stepwise每次都进行6000步。可以看到，尽管二者的定义看起来完全不同，但是却有着相似的结果。
这里写图片描述

Forward Stagewise和Lasso都可以看做是最小角回归（Least Angle Regression）的变体，事实上缩写LARS中的s就暗示着Lasso和stagewise。
最小角回归（Least Angle Regression）算法加速了计算过程，只需m步（m是自变量的个数）得到参数的估计值。

算法描述

首先简单的描述一下最小角回归，算法从所有系数都为零开始（X标准化，Y中心化），首先找到和响应y最相关的预测变量 $x_{j1}$ ，在这个已经选择的变量的solution path上前进直到有另一个变量 $x_{j2}$ ，使得这两个变量与当前残差的相关系数相同。
然后重复这个过程，LARS保证了所有入选回归模型的变量在solution path上前进的时候，与当前残差的相关系数都是一样的。
下面是考虑只有两个变量的情景：
这里写图片描述

记 $\hat \mu$ 为当前拟合值，初始化为0向量，定义 $c(\hat \mu）$
$\hat c = c(\hat \mu)=X^T(y-\hat \mu)$ （1）
所以 $\hat c_j$ 正比于变量 $x_j$ 和当前残差向量的相关度。

可以看到，在只有两个变量的情况下，当前的残差（1）只与 $y$ 在 $x_1,x_2$ 生成的空间上的投影 $\bar y_2$ 有关，即
$c（\hat \mu）= X^T(y-\mu)=X^T(y_2-\mu)$ ，
因为 $x_1$ 与 $y_2-\mu$ 的角度更小，即 $c_1(\hat \mu_0)>c_2(\hat \mu_0)$
LARS算法更新当前拟合值，
$\hat \mu_1 = \hat \mu_0+\hat \gamma_1 x_1$

注意到这里如果是stagewise算法，那么 $\hat \gamma_1$ 是一个很小的常数，然后算法重复进行此步骤；如果是逐步选择算法， $\hat \gamma_1$ 是使得

最低0.47元/天解锁文章

godspeedkaka

关注

13
点赞
踩
59

收藏

觉得还不错? 一键收藏
2
评论
最小角回归（Least Angle Regression）

最小角回归和其他方法的比较逐步选择（forward selection）算法（例如forward stepwise regression）在进行子集选择的时候可能会显得太具有“侵略性”（aggressive），因为每次在选择一个变量后都要重新拟和模型，比如我们第一步选择了一个变量x1x_1，在第二步中可能就会删除掉一个和x1x_1相关但也很重要的变量。 Forward Stagewise是一种比起
复制链接

扫一扫