ESL3.4 学习笔记（奇异值分解与拉格朗日乘子法下的岭回归，Lasso回归，最小角回归及三者对比分析）

最新推荐文章于 2024-06-05 22:11:11 发布

Nstar-LDS

最新推荐文章于 2024-06-05 22:11:11 发布

阅读量3.1k

点赞数 9

分类专栏： ESL阅读笔记文章标签：统计学统计模型矩阵线性代数算法

本文链接：https://blog.csdn.net/nstarLDS/article/details/104410566

版权

3.4 收缩的方法

这是一篇有关《统计学习基础》，原书名The Elements of Statistical Learning的学习笔记，该书学习难度较高，有很棒的学者将其翻译成中文并放在自己的个人网站上，翻译质量非常高，本博客中有关翻译的内容都是出自该学者的网页，个人解读部分才是自己经过查阅资料和其他学者的学习笔记，结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件，可在作者GitHub上查看下载。

原文	The Elements of Statistical Learning
翻译	szcf-weiya
时间	2018-08-21
解读	Hytn Chen
更新	2020-02-17

文章目录

3.4 收缩的方法

超级长文预警~

翻译原文

通过保留一部分预测变量而丢弃剩余的变量，子集选择 (subset selection) 可得到一个可解释的、预测误差可能比全模型低的模型．然而，因为这是一个离散的过程（变量不是保留就是丢弃），所以经常表现为高方差，因此不会降低全模型的预测误差．而收缩方法 (shrinkage methods) 更加连续，因此不会受 高易变性 (high variability) 太大的影响．

岭回归

岭回归 (Ridge regression) 根据回归系数的大小加上惩罚因子对它们进行收缩．岭回归的系数使得带惩罚的残差平方和最小

$\hat{\beta}^{ridge}=\underset{\beta}{\arg\min}\Big\{\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2+\lambda\sum\limits_{j=1}^p\beta_j^2\Big\}\tag{3.41}$

这里 $\lambda\ge 0$ 是控制收缩程度的参数： $\lambda$ 值越大，收缩的程度越大．每个系数都向零收缩．通过参数的平方和来惩罚的想法也用在了神经网络，也被称作权重衰减 (weight decay)（第 11 章）．

岭回归问题可以等价地写成

$\begin{aligned} \hat{\beta}^{ridge}&=\underset{\beta}{\arg\min}\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2\\ & \text{subject to }\sum\limits_{j=1}^p\beta_j^2 \le t \end{aligned} \tag{3.42}$

上式用参数显式表达了对回归参数大小的约束．

!!! note “weiya 注：”
式 $(3.41)$ 其实是对式 $(3.42)$ 应用 Lagrange 乘子法得到的．

$(3.41)$ 中的 $\lambda$ 和 $(3.42)$ 中的 $t$ 存在一一对应．当在线性回归模型中有许多相关变量，它们的系数可能很难确定且有高方差．某个变量的较大的正系数可以与相关性强的变量的差不多大的负系数相互抵消．通过对系数加入大小限制，如 $(3.42)$ ，这个问题能得以减轻．

!!! note “weiya 注：”
这里说的是，在没有对参数大小进行限制前，会存在一对相关性强的变量，它们系数取值符号相反，但绝对值差不多大，会大大增加方差，这也就是高方差的体现，但其实它们的合作用效果近似为 $0$ ，所以考虑引进对参数大小的惩罚．

对输入按比例进行缩放时，岭回归的解不相等，因此求解 $(3.41)$ 前我们需要对输入进行标准化．另外，注意到惩罚项不包含截距 $\beta_0$ ．对截距的惩罚会使得过程依赖于 $\mathbf{Y}$ 的初始选择；也就是，对每个 $y_i$ 加上常数 $c$ 不是简单地导致预测值会偏离同样的量 $c$ ．可以证明（练习 3.5）经过对输入进行中心化（每个 $x_{ij}$ 替换为 $x_{ij}-\bar x_j$ ）后， $(3.41)$ 的解可以分成两部分．我们用 $\bar y=\frac{1}{N}\sum_1^Ny_i$ 来估计 $\beta_0$ ．剩余的参数利用中心化的 $x_{ij}$ 通过无截距的岭回归来估计．今后我们假设中心化已经完成，则输入矩阵 $\mathbf X$ 有 $p$ （不是 $p + 1$ ）列．

!!! info “weiya 注：Ex. 3.5”
已解答，详细证明过程见 Issue 95: Ex. 3.5

将 $(3.41)$ 的准则写成矩阵形式

$\rm{RSS}(\lambda)=(\mathbf{y}-\mathbf{X}\beta)^T(\mathbf{y}-\mathbf{X}\beta)+\lambda\beta^T\beta \tag{3.43}$

可以简单地看出岭回归的解为

$\hat{\beta}^{ridge}=(\mathbf{X^TX}+\lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}\tag{3.44}$

其中 $\mathbf{I}$ 为 $p\times p$ 的单位矩阵．注意到选择二次函数惩罚 $\beta^T\beta$ ，岭回归的解仍是 $\mathbf{y}$ 的线性函数．解在求逆之前向矩阵 $\mathbf{X^TX}$ 的对角元上加入正的常数值．即使 $\mathbf{X^TX}$ 不是满秩，这样会使得问题非奇异，而且这是第一次将岭回归引入统计学中 (Hoerl and Kennard, 1970¹）的主要动力．传统的岭回归的描述从定义 (3.44) 开始．我们选择通过 (3.41) 和 (3.42) 来阐述，因为这两式让我们看清楚了它是怎样实现的．

图 3.8 展示了前列腺癌例子的岭回归系数估计，绘制成关于 $df(\lambda)$ 的函数图象， $df(\lambda)$ 为由惩罚 $\lambda$ 得到的有效自由度 (effective degrees of freedom)（由式 (3.50) 中定义）．在正交输入的情形下，岭回归估计仅仅是最小二乘估计的缩小版本，也就是 $\hat{\beta}^{ridge}=\hat{\beta}/(1+\lambda)$ ．

在这里插入图片描述

图 3.8 当惩罚参数 $\lambda$ 不同时，前列腺癌例子岭回归的变化曲线．画出系数关于有效自由度 $df(\lambda)$ 的曲线．垂直直线画在 $d f = 5.0$ 处，这是由交叉验证选择出来的．

当给定一个合适的先验分布，岭回归也可以从后验分布的均值或众数得到．具体地，假设 $y_i \sim N(\beta_0+x^T_i\beta,\sigma^2)$ ，参数 $\beta_j$ 的分布均为 $N(0,\tau^2)$ ，每个都相互独立．则当 $\tau^2$ 和 $\sigma^2$ 值已知时， $\beta$ 后验分布密度函数的对数值（的负数）与 (3.41) 中花括号里面的表达式成比例**(weiya 注：原文直接说与花括号的表达式相等，但应该是常数倍)**，且 $\lambda=\sigma^2/\tau^2$ （练习 3.6)．因此岭回归估计是后验分布的众数；又因分布为高斯分布，则也是后验分布的均值．

!!! info “weiya 注：Ex. 3.6”
将解答过程移至Issue 96: Ex. 3.6．

中心化输入矩阵 $\mathbf{X}$ 的奇异值分解 (SVD) 让我们进一步了解了岭回归的本质．这个分解在许多统计方法分析中非常有用． $N\times p$ 阶矩阵 $\mathbf{X}$ 的 SVD 分解有如下形式
$\mathbf{X=UDV^T}\tag{3.45}$

这里 $\mathbf{U}$ 和 $\mathbf{V}$ 分别是 $N\times p$ 和 $p\times p$ 的正交矩阵， $\mathbf{U}$ 的列张成 $X$ 的列空间， $\mathbf{V}$ 的列张成 $X$ 的行空间． $\mathbf{D}$ 为 $p\times p$ 的对角矩阵，对角元 $d_1\ge d_2 \ge \cdots \ge d_p \ge 0$ 称作 $\mathbf{X}$ 的奇异值．如果一个或多个 $d_j=0$ ，则 $\mathbf{X}$ 为奇异的．

weiya 注：（以下关于奇异值分解内容来自张贤达的《矩阵分析与应用》）

奇异值分解最早由Beltrami在1873年对实正方矩阵提出来的．Beltrami从双线性函数
$f(x,y)=x^TAy,\qquad A\in R^{n\times m}$
出发，通过引入线性变换
$x=U\xi,\qquad y=V\eta$
将双线性函数变为
$f(x,y)=\xi^TS\eta$
式中
$S=U^TAV$
若选择 $U$ 和 $V$ 为正交矩阵，则他们的选择各存在 $n^2-n$ 个自由度．他提出利用这些自由度使矩阵 $S$ 的非对角元为0，即矩阵 $S=\Sigma=diag(\sigma_1,\sigma_2,\ldots,\sigma_n)$ 为对角矩阵．则
$A=U\Sigma V^T$
这是Beltrami于1873年得到的实正方矩阵的奇异值分解．后来，Autonne于1902年把奇异值分解推广到复正方矩阵；Eckart与Young于1939年又进一步把它推广到一般的长方形矩阵．因此，现在常将任意复长方矩阵奇异值分解定理称为Autonee-Eckart-Young定理，详见下述

令 $A\in R^{m\times n}$ (或 $C^{m\times n}$ ),则存在正交（或酉）矩阵 $U\in R^{m\times m}$ (或 $C^{m\times m}$ )和 $V\in R^{n\times n}$ (或 $C^{n\times n}$ )使得
$A=U\Sigma V^T(or\quad U\Sigma V^H)$
式中
$\Sigma= \left[ \begin{array}{cc} \Sigma_1&O\\ O&O \end{array} \right]$
且 $\Sigma_1=diag(\sigma_1,\sigma_2,\ldots,\sigma_r)$ ,其对角元素按照顺序
$\sigma_1\gt \sigma_2\cdots\ge\sigma_r>0,\qquad r=rank(A)$
排列

以下说明来自wiki:
这里的奇异值分解称作Thin SVD
$M=U_n\Sigma_nV^T$
只有 $U$ 中对应 $V^T$ 中行向量的 $n$ 个列向量被计算， $U$ 的其它列不被计算． $U_n$ 为 $m\times n$ , $\Sigma_n$ 为 $n\times n$ 的对角矩阵， $V$ 是 $n\times n$

利用奇异值分解，通过简化我们可以把最小二乘拟合向量写成

$\begin{aligned} \mathbf{X}\hat{\beta}^{ls}&=\mathbf{X(X^TX)^{-1}X^Ty}\\ &=\mathbf{UU^Ty}\tag{3.46} \end{aligned}$

注意到 $\mathbf{U}^T\mathbf y$ 是 $\mathbf{y}$ 正交基 $\mathbf{U}$ 下的坐标．同时注意其与 (3.33) 的相似性； $\mathbf{Q}$ 和 $\mathbf{U}$ 是 $\mathbf{X}$ 列空间的两个不同的正交基（练习 3.8）．

!!! info “weiya 注：Ex. 3.8”
已解答，具体证明过程见 Issue 97: Ex. 3.8

现在岭回归的解为

$\begin{aligned} \mathbf{X}\hat{\beta}^{ridge}&=\mathbf{X}(\mathbf{X^TX}+\lambda \mathbf{I})^{-1}\mathbf{X^Ty}\\ &= \mathbf{UD}(\mathbf{D^2}+\lambda \mathbf{I})^{-1}\mathbf{DU^Ty}\\ &= \sum\limits_{j=1}^p\mathbf{u}_j\dfrac{d_j^2}{d_j^2+\lambda}\mathbf{u_j^Ty}\tag{3.47} \end{aligned}$

其中 $\mathbf{u}_j$ 是 $\mathbf{U}$ 的列向量．注意到因为 $\lambda \ge 0$ ，我们有 $d_j^2/(d^2_j+\lambda)\le 1$ ．类似线性回归，岭回归计算 $\mathbf{y}$ 关于正规基 $\mathbf{U}$ 的坐标．通过因子 $d^2_j/(d^2_j+\lambda)$

最低0.47元/天解锁文章

Nstar-LDS

关注

9
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
ESL3.4 学习笔记（奇异值分解与拉格朗日乘子法下的岭回归，Lasso回归，最小角回归及三者对比分析）

3.4 收缩的方法这是一篇有关《统计学习基础》，原书名The Elements of Statistical Learning的学习笔记，该书学习难度较高，有很棒的学者将其翻译成中文并放在自己的个人网站上，翻译质量非常高，本博客中有关翻译的内容都是出自该学者的网页，个人解读部分才是自己经过查阅资料和其他学者的学习笔记，结合个人理解总结成的原创内容。原文The Elements of ...
复制链接

扫一扫

专栏目录