岭回归与Moore逆矩阵

最新推荐文章于 2023-12-01 23:30:55 发布

drawsky

最新推荐文章于 2023-12-01 23:30:55 发布

阅读量991

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/drawsky/article/details/80288209

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

回归分析是机器学习里面基本的算法，最小二乘估计，岭回归与矩阵的Moore有着内在联系。为方便说明，假定设计矩阵（高维样本的自变量样本值矩阵，也称自变量）为 $X\in R^{n*p}$ ,因变量为 $Y\in R^{n*1}$ ，其线性回归模型为 $Y=X*\beta,\beta\in R^{p}$ .

一最小二乘估计

最小二乘估计来自于最小化损失函数：

Q (β) = 1 2 (Y - X β) T (Y - X β)

$Q(\beta)=\frac{1}{2}(Y-X\beta)^T(Y-X\beta)$
可以看到，损失函数是参数

β β $\beta$ 的二次函数。最小化目标函数

Q(β) Q ( β ) $Q(\beta)$ ,只需要将损失函数对参数求导即可：

\partial Q ( β ) \partial β = X T (Y - X β) = 0 \Rightarrow β = (X T X) - 1 X T Y (1)

$\frac{ \partial Q(\beta)}{ \partial \beta}=X^T(Y-X\beta)=0 \Rightarrow \beta=(X^TX)^{-1}X^TY \quad (1)$

求得 $\beta=(X^TX)^{-1}X^TY$ ，这就是最小二乘法的解法。
但是问题是 $X^TX$ 可能接近于零或者等于零，是一个病态矩阵，求逆在数值上不稳定， $X$ 的微小变化将导致 $(X^TX)^{-1}$ 巨大变化，或者根本无法求逆。因此可能无法求得的参数 $\beta$ ，或者 $\beta$ 不稳定。
荐于以上情况，将 $\beta=(X^TX)^{-1}X^TY$ 改为 $\beta=(X^TX+\lambda I)^{-1}X^TY$ ，这就岭回归。

二岭回归

在最小二乘法的基础上化解 $X^TX$ 病态问题而引入超参数 $\lambda$ 。将岭回归还原到目标函数，有：

β = (X T X + λ I) - 1 X T Y \Rightarrow (X T X + λ I) β = X T Y \Rightarrow X T X β + λ β - X T Y = 0 \Rightarrow X T (X β - Y) + λ β = 0 (2)

$\beta=(X^TX+\lambda I)^{-1}X^TY\\ \Rightarrow (X^TX+\lambda I)\beta=X^TY\\ \Rightarrow X^TX\beta+\lambda \beta-X^TY=0\\ \Rightarrow X^T(X\beta-Y)+\lambda \beta=0 \quad(2)$
对比（1）（2）两式，可以发现，岭回归实际上是在最小二乘法最小化损失函数上加了一个正则化项：:

Q' (β) = 1 2 (Y - X * β) T (Y - X * β) + 1 2 λ β T β (3)

$Q'(\beta)=\frac{1}{2}(Y-X*\beta)^T(Y-X*\beta)+\frac{1}{2}\lambda \beta^T\beta \quad(3)$

三 Moore逆

任意一个矩阵 $X$ ，求解线性方程组 $Y=X\beta$ ,已知 $Y,X$ 求解 $\beta$ 。如果存在 $A\in R^{p*n}$ 使得 $AY=b$ ,则有 $AY=AX\beta=\beta \to AX=I$ 称 $A$ 是 $X$ 广义逆矩阵。

然而广义逆矩阵不一定存在，当X的秩 $Rank(X)<p$ 时任意矩阵 $A\in R^{p*n}$ 都有 $Rank(AX)<p$ ,不存在 $A\in R^{p*n}$ 使得 $AX=I$ 。只有当 $Rank(X)=p$ 时广义逆矩阵才存在。因为广义逆矩阵不一定存在，放弃 $AX=I$ 这一要求，模岭回归可定义一个更广泛的逆矩阵。

Moore逆矩阵：任意一个矩阵 $X\in R^{n*p}$ ,定义其Moore逆矩阵为： $A=(X^TX+\lambda I)^{-1}X^T$

从定义中我们可以看出，Moore逆与岭回归中求解参数式 $\beta=(X^TX+\lambda I)^{-1}X^TY$ 一致，因此通过Moore逆矩阵求得的 $\hat\beta=AY$ ,一定会最小化（3）式的损失函数 $Q'(\beta)$ 。

根据线性方程组理论,对于解线性方程组 $Y=X\beta$ ，令： $\hat \beta=AY$ ：
1. 当 $Y=X\beta$ 有解时，有 $Q'(\hat \beta)=0+\frac{1}{2}\lambda \hat \beta^T\hat \beta$ ，有 $\sum_{i=1}^p \hat \beta_i^2$ 最小。
2. 当 $Y=X\beta$ 无解时，有 $\lim_{\lambda \to 0} Q'(\hat \beta)=\frac{1}{2}(Y-X*\hat \beta)^T(Y-X*\hat \beta)=Q(\hat \beta)>0$ ,模型误差最小。

在实际数值计算中，并不采用Moore的定义公式计算Moore逆，而是通过求解A的SVD分解来计算：
设： $X=UDV^T$ ， $D$ 是对角矩阵（非对角元素为零），则有：

\begin{array}{l} A & = (X^{T} X + λ I)^{- 1} X^{T} \\ = (V D U^{T} U D V^{T} - λ I)^{- 1} V D U^{T} \\ = (V D^{2} V^{T} - λ I)^{- 1} V D U^{T} \\ = (V (D^{2} - λ I) V^{T})^{- 1} V D U^{T} \\ = V (D^{2} - λ I)^{- 1} V^{T} V D U^{T} \\ = V (D^{2} - λ I)^{- 1} D U^{T} \end{array}

$\begin{array}{left} A & =(X^TX+\lambda I)^{-1}X^T\\ & =(VDU^TUDV^T-\lambda I)^{-1}VDU^T\\ &=(VD^2V^T-\lambda I)^{-1}VDU^T\\ &=(V(D^2-\lambda I)V^T)^{-1}VDU^T\\ &=V(D^2-\lambda I)^{-1}V^TVDU^T\\ &=V(D^2-\lambda I)^{-1}DU^T\\ \end{array}$
令

H=(D2−λI)−1D H = ( D 2 − λ I ) − 1 D $H=(D^2-\lambda I)^{-1}D$ ，则有：

A = V H U T (4)

$A=VHU^T \quad(4)$
因此，计算

X X $X$ 的Moore逆，首先需要将X进行SVD分解，将D的每个对角线元素做映射

d_{i i} \to \frac{d_{i i}}{d_{i i}^{2} + λ} \equiv h_{i i}

$d_{ii} \to \frac{d_{ii}}{d_{ii}^2+\lambda} \equiv h_{ii}$ ，即

H=D(D2+λI)−1 H = D ( D 2 + λ I ) − 1 $H=D(D^2+\lambda I)^{-1}$ ，得到H的对角线元素值。然后按照(4)式相乘即可。

四岭回归超参数含义

4.1 影响回归模型的解释性能

注意 $\lambda$ 来自于损失函数 $Q'(\beta)=\frac{1}{2}(Y-X*\beta)^T(Y-X*\beta)+\frac{1}{2}\lambda \beta^Tb$ 中后面一项 $\frac{1}{2}\lambda \beta^Tb$ ,称之为损失函数的正则化项，且有：

2 Q' (β^) = (Y - X * β^) T (Y - X * β^) + λ β^T β^= (Y - X * A Y) T (Y - X * A Y) + λ (A Y) T (A Y) = Y T [(I - X A) T (I - X A) + λ A T A] Y = Y T [(I - A T X T - X A + A T X T X A + λ A T A] Y = Y T [(I - U H D U T - U D H U T + U D 2 H 2 U T + λ U H 2 U T] Y = Y T U [(I - 2 H D + D 2 H 2 + λ H 2] U T Y = Y T U [(I - 2 D (D 2 + λ I) - 1 D + D 2 (D (D 2 + λ I) - 1) 2 + λ (D (D 2 + λ I) - 1) 2] U T Y = Y T U [(I - 2 D 2 (D 2 + λ I) - 1 + D 2 D 2 ((D 2 + λ I) - 1) 2 + λ D 2 ((D 2 + λ I) - 1) 2] U T Y = Y T U [(I - D 2 (D 2 + λ I) - 1] U T Y = Y T U [λ I (D 2 + λ I) - 1] U T Y = λ Y T U [(D 2 + λ I) - 1] U T Y

$\begin{array}{left} 2Q'(\hat \beta)&=(Y-X*\hat \beta)^T(Y-X*\hat \beta)+\lambda {\hat \beta}^T\hat \beta\\ &=(Y-X*AY)^T(Y-X*AY)+\lambda (AY)^T(AY)\\ &=Y^T\big[(I-XA)^T(I-XA)+\lambda A^TA\big]Y\\ &=Y^T\big[(I-A^TX^T-XA+A^TX^TXA+\lambda A^TA\big]Y\\ &=Y^T\big[(I-UHDU^T-UDHU^T+UD^2H^2U^T+\lambda UH^2U^T\big]Y\\ &=Y^TU\big[(I-2HD+D^2H^2+\lambda H^2\big]U^TY\\ &=Y^TU\big[(I-2D(D^2+\lambda I)^{-1}D+D^2(D(D^2+\lambda I)^{-1})^2+\lambda (D(D^2+\lambda I)^{-1})^2\big]U^TY\\ &=Y^TU\big[(I-2D^2(D^2+\lambda I)^{-1}+D^2D^2((D^2+\lambda I)^{-1})^2+\lambda D^2((D^2+\lambda I)^{-1})^2\big]U^TY\\ &=Y^TU\big[(I-D^2(D^2+\lambda I)^{-1}\big]U^TY\\ &=Y^TU\big[\lambda I(D^2+\lambda I)^{-1}\big]U^TY\\ &=\lambda Y^TU\big[(D^2+\lambda I)^{-1}\big]U^TY\\ \end{array}$

对坐标做旋转，选取 $Z=U^TY,\hat X=U^TX=DV^T \to \hat X{\hat X}^T=D^2$ ,则损失函数可以表示为：

2 Q' (β^) = \sum i = 1 n λ d 2 i i + λ z 2 i

$2Q'(\hat\beta)=\sum_{i=1}^n\frac{\lambda}{d_{ii}^2+\lambda}z_i^2$
从坐标旋转后的空间来看，

当 $d_{ii}=0$ 时，表示 $\hat X$ 在方向 $U_i$ 分量值为零， $Z$ 在该子方向的方差是 $z_i^2$ ,所以有 $\frac{\lambda}{d_{ii}^2+\lambda}z_i^2=z_i^2$ ，可知在该子方向上，因变量的方差不能被模型解释；
当 $d_{ii}\ne 0$ 时在 $U_i$ 方向上被解释方差为 $z_i^2-\frac{\lambda}{d_{ii}^2+\lambda}z_i^2 =d_{ii}^2/(d_{ii}^2+\lambda)z_i^2$ ,说明自变量在该方向上方差越大，解析因变量方差越多，但同时 $\lambda$ 越大，模型解释能力越差。
因此超参数在保证数值稳定的情况下，应当尽量设置一个较小的值，提高模型的解释能力。