线性回归的数学原理-机器学习-白板推导笔记3

线性回归的数学原理-机器学习-白板推导笔记3

所有内容均为从www.bilibili.com/video/av70839977的视频课中总结,并添加了一些浅薄的个人理解。本人小白,如有错误,欢迎指正。

最小二乘法及其几何意义

我们所有的数据 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) } D=\{(x_1,y_1),(x_2,y_2),\cdots, (x_n,y_n)\} D={(x1,y1),(x2,y2),,(xn,yn)}
其中 x i ∈ R p , y ∈ R , i = 1 , 2 , ⋯   , N x_i \in \mathbb{R}^p, y\in \mathbb{R},i=1,2,\cdots,N xiRp,yR,i=1,2,,N
X = ( x 1 , x 2 , ⋯   , x N ) T = ( x 1 T x 2 T ⋮ x N T ) = [ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ x N 1 x N 2 ⋯ x N p ] N × p X= (x_1,x_2,\cdots,x_N)^T = \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T \end{pmatrix}=\begin{bmatrix} x_{11} & x_{12}&\cdots&x_{1p} \\ x_{21} & x_{22}&\cdots&x_{2p} \\ \vdots & \vdots &&\vdots\\ x_{N1} & x_{N2}&\cdots&x_{Np} \end{bmatrix}_{N\times p} X=(x1,x2,,xN)T=x1Tx2TxNT=x11x21xN1x12x22xN2x1px2pxNpN×p

Y = ( y 1 y 2 ⋮ y n ) N × 1 Y=\begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix}_{N\times 1} Y=y1y2ynN×1
其中,我们的要拟合的直线 y = w T x + w 0 x 0 y=w^Tx + w_0x_0 y=wTx+w0x0,后面的项为偏置项。为了简化我们的式子,我们把 w 0 x 0 w_0x_0 w0x0这一项归到 w T x w^Tx wTx中。

最小二乘估计:

L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 (2范数的平方) = ∑ i = 1 N ( w T x i − y i ) 2 (由于是一个数所以可以写成这个形式) = ( w T x 1 − y 1 , w T x 2 − y 2 , ⋯   , w T x N − y N ) ( w T x 1 − y 1 w T x 2 − y 2 ⋮ w T x N − y N ) (分解成两个向量的乘积) = ( ( w T x 1 , w T x 2 , ⋯   , w T x n ) − ( y 1 , y 2 , ⋯   , y n ) ) ( w T x 1 − y 1 w T x 2 − y 2 ⋮ w T x N − y N ) = ( w T ( x 1 , x 2 , ⋯   , x n ) − ( y 1 , y 2 , ⋯   , y n ) ) ( w T x 1 − y 1 w T x 2 − y 2 ⋮ w T x N − y N ) = ( w T X T − Y T ) ( X w − Y ) (右边的项由左边进行转置可得) = w T X T X w − w T X T Y − Y T X w + Y T Y ( 其中 w p × 1 , X p × N , Y N × 1 ) = w T X T X w − 2 w T X T Y + Y T Y ( 因 为 其 中 两 不 是 向 量 而 是 数 字 所 以 转 置 等 于 自 身 因 此 可 以 合 并 ) \begin{aligned} L(w)& = \sum_{i=1}^N||w^Tx_i-y_i||^2 \text{(2范数的平方)}\\ &= \sum_{i=1}^N(w^Tx_i-y_i)^2 \text{(由于是一个数所以可以写成这个形式)}\\ &=(w^Tx_1-y_1, w^Tx_2-y_2,\cdots,w^Tx_N-y_N)\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\text{(分解成两个向量的乘积)}\\ &=((w^Tx_1,w^Tx_2,\cdots,w^Tx_n)-(y_1,y_2,\cdots,y_n))\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\\ &=(w^T(x_1,x_2,\cdots,x_n)-(y_1,y_2,\cdots,y_n))\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\\ &=(w^TX^T-Y^T)(Xw-Y)\text{(右边的项由左边进行转置可得)}\\ &=w^TX^TXw-w^TX^TY-Y^TXw+Y^TY(\text{其中}w_{p\times1},X_{p\times N},Y_{N\times 1})\\ &=w^TX^TXw-2w^TX^TY+Y^TY(因为其中两不是向量而是数字所以转置等于自身因此可以合并) \end{aligned} L(w)=i=1NwTxiyi2(2范数的平方)=i=1N(wTxiyi)2(由于是一个数所以可以写成这个形式)=(wTx1y1,wTx2y2,,wTxNyN)wTx1y1wTx2y2wTxNyN(分解成两个向量的乘积)=((wTx1,wTx2,,wTxn)(y1,y2,,yn))wTx1y1wTx2y2wTxNyN=(wT(x1,x2,,xn)(y1,y2,,yn))wTx1y1wTx2y2wTxNyN=(wTXTYT)(XwY)(右边的项由左边进行转置可得)=wTXTXwwTXTYYTXw+YTY(其中wp×1,Xp×N,YN×1)=wTXTXw2wTXTY+YTY()

我们需要 L ( w ) L(w) L(w)取得最小值,因为 L ( w ) L(w) L(w)关于 w w w是一个凸函数所以当 L ( w ) L(w) L(w)关于 w w w的导数为零时,得到 w w w的最优解。
w ^ = a r g m i n L ( w ) \hat{w}=argmin L(w) w^=argminL(w) 令 ∂ L ∂ w = 2 X T X w − 2 X T Y = 0 令\frac{\partial L}{\partial w}=2X^TXw-2X^TY=0 wL=2XTXw2XTY=0得到 X T X w = X T Y ⇒ w ^ = ( X T X ) − 1 X T Y X^TXw=X^TY \Rightarrow \hat{w}=(X^TX)^{-1}X^TY XTXw=XTYw^=(XTX)1XTY
分析:这个式子中 ( X T X ) − 1 X T (X^TX)^{-1}X^T (XTX)1XT被称为伪逆 X + X^+ X+。上述过程中涉及到对 X T X X^TX XTX这个矩阵求逆,然而在实际任务中 X T X X^TX XTX可能不是满秩矩阵,那么就不能直接进行求逆的操作,在机器学习任务中,常见的做法是引入正则化项。

几何解释

几何解释-1

在这里插入图片描述
由最小二乘法的式子 L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 L(w) = \sum_{i=1}^N||w^Tx_i-y_i||^2 L(w)=i=1NwTxiyi2结合图可知,我们的最小二乘法相当于求每一个点到直线的距离,把误差分散在每一个点上,求一个总误差最小。

几何解释-2

在这里插入图片描述
f ( w ) = w T x f(w)=w^Tx f(w)=wTx,其中 f ( w ) = w T x = x T β f(w)=w^Tx=x^T\beta f(w)=wTx=xTβ,我们把 ( x T ) 1 × p (x^T)_{1\times p} (xT)1×p想象成一个 p p p维的系数。 ( X T ) N × p (X^T)_{N\times p} (XT)N×p中数据一共有 N N N个系数,都属于 p p p维子空间。其中 Y Y Y的数据形成的向量不在 p p p维子空间内,除非所有的样本点都在我们的 f ( w ) = w T x f(w)=w^Tx f(w)=wTx直线上。因为噪声不可避免,于是 Y Y Y不在 p p p维空间之内,所求的就是 Y Y Y在子空间的投影。以2维子空间为例,图中 x 1 x_1 x1代表第一维, x 2 x_2 x2代表第二维。我们需要 Y Y Y距离我们的 p p p维子空间最近,而图中的投影就是我们要找的 f ( β ) f(\beta) f(β),而 f ( β ) f(\beta) f(β)是一个 x 1 , ⋯   , x n x_1,\cdots,x_n x1,,xn 的线性组合, f ( β ) = X β f(\beta)=X\beta f(β)=Xβ。而 Y − f ( β ) Y-f(\beta) Yf(β)就是我们要找的法向量。所以 X T ( Y − X β ) = 0 ⇒ X T Y = X T X β ⇒ β = ( X T X ) − 1 X T Y X^T(Y-X\beta)=0 \Rightarrow X^TY=X^TX\beta \Rightarrow \beta = (X^TX)^{-1}X^TY XT(YXβ)=0XTY=XTXββ=(XTX)1XTY

概率视角线性回归

我们所有的数据 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) } D=\{(x_1,y_1),(x_2,y_2),\cdots, (x_n,y_n)\} D={(x1,y1),(x2,y2),,(xn,yn)}
其中 x i ∈ R p , y ∈ R , i = 1 , 2 , ⋯   , N x_i \in \mathbb{R^p}, y\in \mathbb{R},i=1,2,\cdots,N xiRp,yR,i=1,2,,N
X = ( x 1 , x 2 , ⋯   , x N ) T = ( x 1 T x 2 T ⋮ x N T ) = ∣ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ x N 1 x N 2 ⋯ x N p ∣ N × p X= (x_1,x_2,\cdots,x_N)^T = \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T \end{pmatrix}=\begin{vmatrix} x_{11} & x_{12}&\cdots&x_{1p} \\ x_{21} & x_{22}&\cdots&x_{2p} \\ \vdots & \vdots &&\vdots\\ x_{N1} & x_{N2}&\cdots&x_{Np} \end{vmatrix}_{N\times p} X=(x1,x2,,xN)T=x1Tx2TxNT=x11x21xN1x12x22xN2x1px2pxNpN×p

Y = ( y 1 y 2 ⋮ y n ) N × 1 Y=\begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix}_{N\times 1} Y=y1y2ynN×1
最小二乘估计: L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2 L(w)=i=1NwTxiyi2
w ^ = a r g m i n   L ( w ) = ( X T X ) − 1 X T Y \hat{w}=argmin\ L(w)=(X^TX)^{-1}X^TY w^=argmin L(w)=(XTX)1XTY
因为数据中都是有噪声的我们设 ε ∼ N ( 0 , σ 2 ) , y = f ( w ) + ε , f ( w ) = w T x , y = w T x + ε \varepsilon \sim N(0,\sigma^2),y=f(w)+\varepsilon,f(w)=w^Tx,y=w^Tx+\varepsilon εN(0,σ2),y=f(w)+ε,f(w)=wTx,y=wTx+ε
y ∣ x , w ∼ N ( w T x , σ 2 ) y|x,w\sim N(w^Tx,\sigma^2) yx,wN(wTx,σ2)

最大似然估计MLE

已知样本之间是相互独立的, p ( y ∣ x , w ) = 1 2 π σ exp ⁡ { − ( y − w T x ) 2 2 σ 2 } p(y|x,w)=\frac{1}{\sqrt{2\pi}\sigma}\exp^{\{-\frac{(y-w^Tx)^2}{2\sigma^2}\}} p(yx,w)=2π σ1exp{2σ2(ywTx)2}

L ( w ) = l o g P ( Y ∣ x , w ) = l o g ∏ i = 1 N P ( y i ∣ x i , w ) = ∑ i = 1 N l o g P ( y i ∣ x i , w ) = ∑ i = 1 N ( l o g 1 2 π σ + l o g e x p { − ( y i − w T x i ) 2 2 σ 2 } ) = ∑ i = 1 N ( l o g 1 2 π σ − ( y i − w T x i ) 2 2 σ 2 ) \begin{aligned} \mathcal{L(w)}&=log^{P(Y|x,w)}\\ &=log^{\prod_{i=1}^NP(y_i|x_i,w)}\\ &=\sum_{i=1}^N log^{P(y_i|x_i,w)}\\ &=\sum_{i=1}^N \left(log^{\frac{1}{\sqrt{2\pi}\sigma}}+log^{exp^{\{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\}}}\right)\\ &=\sum_{i=1}^N \left(log^{\frac{1}{\sqrt{2\pi}\sigma}}-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right) \end{aligned} L(w)=logP(Yx,w)=logi=1NP(yixi,w)=i=1NlogP(yixi,w)=i=1N(log2π σ1+logexp{2σ2(yiwTxi)2})=i=1N(log2π σ12σ2(yiwTxi)2)
w ^ = arg max ⁡ w L ( w ) ( 由 于 σ 是 常 数 ) = arg max ⁡ w ∑ i = 1 N − ( y i − w T x i ) 2 2 σ 2 = arg min ⁡ w ∑ i = 1 N ( y i − w T x i ) 2 \begin{aligned} \hat{w}&=\argmax \limits_w \mathcal{L}(w)(由于\sigma是常数)\\ &=\argmax \limits_w \sum_{i=1}^N -\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\\ &=\argmin \limits_w \sum_{i=1}^N(y_i-w^Tx_i)^2 \end{aligned} w^=wargmaxL(w)(σ)=wargmaxi=1N2σ2(yiwTxi)2=wargmini=1N(yiwTxi)2
可以看到结果和最小二乘法得到的是一样的。

线性回归正则化

Loss Function: L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2 L(w)=i=1NwTxiyi2 w ^ = ( X T X ) − 1 X T Y \hat{w}=(X^TX)^{-1}X^TY w^=(XTX)1XTY X N × p N 个 样 本 , x i ∈ R p , N ≫ p X_{N\times p}N个样本,x_i\in \mathbb{R}^p,N\gg p XN×pNxiRp,Np
这个时候 X T X X^TX XTX不满秩,所以也就不可逆,在现象上就会出现过拟合。
解决方法:
(1)加数据
(2)特征选择/特征提取(PCA)
(3)正则化
正则化框架 arg min ⁡ w ( L ( w ) + λ P ( w ) ) \argmin \limits_w(L(w)+\lambda P(w)) wargmin(L(w)+λP(w))
L1正则化(Lasso): P ( w ) = ∣ ∣ w ∣ ∣ 1 P(w)=||w||_1 P(w)=w1
L2正则化(Ridge)岭回归也叫权重衰减: P ( w ) = ∣ ∣ w ∣ ∣ 2 2 P(w)=||w||^2_2 P(w)=w22

岭回归-频率角度

先求解损失函数:
J ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 + λ w T w = ( w T X T − Y T ) ( X w − Y ) + λ w T w = w T X T X w − 2 w T X T Y + Y T Y + λ w T w = w T ( X T X + λ I ) w − 2 w T X T Y + Y T Y \begin{aligned} \mathcal{J}(w)&=\sum_{i=1}^N||w^Tx_i-y_i||^2+\lambda w^Tw\\ &=(w^TX^T-Y^T)(Xw-Y)+\lambda w^Tw\\ &=w^TX^TXw-2w^TX^TY+Y^TY+\lambda w^Tw\\ &=w^T(X^TX+\lambda I)w-2w^TX^TY+Y^TY \end{aligned} J(w)=i=1NwTxiyi2+λwTw=(wTXTYT)(XwY)+λwTw=wTXTXw2wTXTY+YTY+λwTw=wT(XTX+λI)w2wTXTY+YTY
我们的目标为:
w ^ = arg min ⁡ w J ( w ) \hat{w}=\argmin \limits_w \mathcal{J}(w) w^=wargminJ(w)
进行矩阵求导可得:
∂ J ( w ) ∂ w = 2 ( X T X + λ I ) w − 2 X T Y = 0 \frac{\partial \mathcal{J}(w)}{\partial w}=2(X^TX+\lambda I)w-2X^TY = 0 wJ(w)=2(XTX+λI)w2XTY=0

w ^ = ( X T X + λ I ) − 1 X T Y \hat{w}=(X^TX+\lambda I)^{-1}X^TY w^=(XTX+λI)1XTY
这时我们的 ( X T X + λ I ) (X^TX+\lambda I) (XTX+λI)矩阵就是可逆的了,因为 X T X X^TX XTX是半正定矩阵,所以加了一个正的对角矩阵一定是正定的,所以就可逆了。 ( 因 为 正 定 的 充 分 必 要 条 件 是 其 顺 序 主 子 式 全 大 于 0 , 若 矩 阵 A 正 定 , 则 必 有 ∣ A ∣ ( 矩 阵 A 的 行 列 式 ) > 0 , 所 以 矩 阵 A 可 逆 ) (因为正定的充分必要条件是其顺序主子式全大于0,若矩阵A正定,则必有 |A|(矩阵A的行列式)>0,所以矩阵A可逆) (0AA(A)>0A)
tips:我们发现了一个神奇的事情,原来线性回归过拟合可以用矩阵的不可逆来解释,我们常用的正则化竟然是让原本不可逆的矩阵变得可逆。

岭回归-贝叶斯角度

f ( w ) = w T x , y = f ( w ) + ε f(w)=w^Tx,y=f(w)+\varepsilon f(w)=wTx,y=f(w)+ε w ∼ N ( 0 , σ 0 2 ) ( 这 是 对 w 的 先 验 ) , ε ∼ ( 0 , σ 2 ) ( ε 是 噪 声 , 假 设 服 从 正 态 ) w\sim N(0,\sigma^2_0)(这是对w的先验),\varepsilon \sim(0,\sigma^2)(\varepsilon 是噪声,假设服从正态) wN(0,σ02)(w),ε(0,σ2)(ε,) y ∣ x , w ∼ N ( w T x , σ 2 ) y|x,w\sim N(w^Tx,\sigma^2) yx,wN(wTx,σ2) P ( w ∣ y ) = P ( y ∣ w ) P ( w ) p ( y ) P(w|y)=\frac{P(y|w)P(w)}{p(y)} P(wy)=p(y)P(yw)P(w)
在贝叶斯统计学中,“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。它与最大似然估计中的经典方法有密切关系,但是它使用了一个增广的优化目标,进一步考虑了被估计量的先验概率分布。
MAP(最大后验估计):
M A P : w ^ = arg max ⁡ w ∑ i = 1 N P ( w ∣ y i , x i ) = arg max ⁡ w ∑ i = 1 N P ( y ∣ w , x i ) P ( w ) ( 因 为 p ( y i ) 的 值 与 w 无 关 所 以 不 用 考 虑 ) = arg max ⁡ w ∑ i = 1 N 1 2 π σ exp ⁡ − ( y i − w T x i ) 2 2 σ 2 1 2 π σ 0 exp ⁡ − ∣ ∣ w ∣ ∣ 2 2 2 σ 0 2 = arg max ⁡ w ∑ i = 1 N 1 2 π σ 1 2 π σ 0 exp ⁡ − ( y i − w T x i ) 2 2 σ 2 − ∣ ∣ w ∣ ∣ 2 2 2 σ 0 2 = arg max ⁡ w ∑ i = 1 N log ⁡ ( 1 2 π σ 1 2 π σ 0 ) + ( − ( y i − w T x i ) 2 2 σ 2 − ∣ ∣ w ∣ ∣ 2 2 2 σ 0 2 ) ( σ 是 超 参 数 但 是 我 们 可 以 当 做 常 数 ) = arg min ⁡ w ∑ i = 1 N ( y i − w T x i ) 2 2 σ 2 + ∣ ∣ w ∣ ∣ 2 2 2 σ 0 2 = arg min ⁡ w ∑ i = 1 N ( y i − w T x i ) 2 + σ 2 σ 0 2 ∣ ∣ w ∣ ∣ 2 2 \begin{aligned} MAP:\hat{w}&=\argmax \limits_w \sum_{i=1}^N P(w|y_i,x_i)\\ &=\argmax \limits_w \sum_{i=1}^N P(y|w,x_i)P(w)(因为p(y_i)的值与w无关所以不用考虑)\\ &=\argmax \limits_w \sum_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}\frac{1}{\sqrt{2\pi}\sigma_0}\exp^{-\frac{||w||_2^2}{2{\sigma_0}^2}}\\ &=\argmax \limits_w \sum_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma}\frac{1}{\sqrt{2\pi}\sigma_0}\exp^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{||w||_2^2}{2{\sigma_0}^2}}\\ &=\argmax \limits_w \sum_{i=1}^N \log^{\left(\frac{1}{\sqrt{2\pi}\sigma}\frac{1}{\sqrt{2\pi}\sigma_0}\right)}+\left(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{||w||_2^2}{2{\sigma_0}^2} \right)(\sigma 是超参数但是我们可以当做常数)\\ &=\argmin \limits_w \sum_{i=1}^N \frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{||w||_2^2}{2{\sigma_0}^2}\\ &=\argmin \limits_w \sum_{i=1}^N (y_i-w^Tx_i)^2+\frac{\sigma^2}{\sigma^2_0}||w||_2^2 \end{aligned} MAP:w^=wargmaxi=1NP(wyi,xi)=wargmaxi=1NP(yw,xi)P(w)(p(yi)w)=wargmaxi=1N2π σ1exp2σ2(yiwTxi)22π σ01exp2σ02w22=wargmaxi=1N2π σ12π σ01exp2σ2(yiwTxi)22σ02w22=wargmaxi=1Nlog(2π σ12π σ01)+(2σ2(yiwTxi)22σ02w22)(σ)=wargmini=1N2σ2(yiwTxi)2+2σ02w22=wargmini=1N(yiwTxi)2+σ02σ2w22
这里的 σ 2 σ 0 2 \frac{\sigma^2}{\sigma^2_0} σ02σ2就相当于上面正则化的 λ \lambda λ。前一项相当于Loss,后一项相当于penalty。

总结

L S E ( 最 小 二 乘 估 计 ) ⟺ M L E ( 极 大 似 然 估 计 ) ( n o i s e 为 G u a s s i a n D i s t ) LSE(最小二乘估计)\Longleftrightarrow MLE(极大似然估计)(noise为Guassian Dist) LSE()MLE()(noiseGuassianDist)
R e g u l a r i z e d L S E ⟺ M A P ( 最 大 后 验 估 计 ) ( n o i s e 为 G u a s s i a n D i s t , 先 验 也 是 G u a s s i a n D i s t ) Regularized LSE \Longleftrightarrow MAP(最大后验估计)(noise为Guassian Dist,先验也是Guassian Dist) RegularizedLSEMAP()(noiseGuassianDistGuassianDist)

附录-相关知识(送给和我一样的小白)

矩阵求导

方法1: ∂ x T A x ∂ x = ( A + A T ) x \frac{\partial x^TAx}{\partial x}=(A+A^T)x xxTAx=(A+AT)x
本文中: ∂ w T ( X T X + λ I ) w ∂ w = [ ( X T X + λ I ) + ( X T X + λ I ) T ] w = 2 ( X T X + λ I ) w \frac{\partial w^T(X^TX+\lambda I)w}{\partial w}=[(X^TX+\lambda I)+(X^TX+\lambda I)^T]w=2(X^TX+\lambda I)w wwT(XTX+λI)w=[(XTX+λI)+(XTX+λI)T]w=2(XTX+λI)w
方法2: ∂ x A ∂ x = A ( 在 分 母 布 局 的 情 况 下 , 即 x T 和 y ) \frac{\partial xA}{\partial x}=A(在分母布局的情况下,即x^T和y) xxA=A(,xTy)
本文中: ∂ 2 w T X T Y ∂ w = 2 X T Y \frac{\partial 2w^TX^TY}{\partial w}=2X^TY w2wTXTY=2XTY
矩阵求导原理,之后有机会会补充。

正定矩阵

正定矩阵的定义: 一 个 对 称 的 n × n 矩 阵 A , 若 对 R n 中 的 所 有 非 零 向 量 x , x T A x > 0 , 则 它 为 正 定 的 。 一个对称的n\times n矩阵A,若对\mathbb{R}^n中的所有非零向量x,x^TAx>0,则它为正定的。 n×nARnxxTAx>0
正定矩阵的性质: 若 A 为 一 对 称 正 定 矩 阵 , 则 d e t ( A ) > 0 若A为一对称正定矩阵,则det(A)>0 Adet(A)>0
所以正定矩阵是非奇异矩阵也是可逆矩阵。

定理证明: A 为 一 个 对 称 的 n × n 矩 阵 A ⊨ A 可 以 分 解 为 一 个 乘 积 B T B , 其 中 B 为 某 非 奇 异 矩 阵 ⟹ A 为 正 定 的 A为一个对称的n\times n矩阵A\models A可以分解为一个乘积B^TB,其中B为某非奇异矩阵\Longrightarrow A为正定的 An×nAABTB,BA(其实两个方向都成立,本文只需要一个方向)
假设 A = B T B A=B^TB A=BTB,其中 B B B是非奇异的,令 x x x R n R^n Rn中的任意非零向量,令 y = B x y=Bx y=Bx,由于 B B B为非奇异的,所以 y ≠ 0 y\ne \mathbf{0} y=0,由此可知 x T A x = x T B T B x = y T y = ∣ ∣ y ∣ ∣ 2 > 0 x^TAx=x^TB^TBx=y^Ty=||y||^2>0 xTAx=xTBTBx=yTy=y2>0因此 A A A为正定的。

下面解决我们的问题:
我的矩阵是 X T X , ( X T X ) T = X T X X^TX,(X^TX)^T=X^TX XTX,(XTX)T=XTX所以这是一个对称矩阵,如果 X X X是满秩的那个用上述定理就可以证明出 X T X X^TX XTX是正定矩阵,如果不是的话,那么矩阵不可逆。加了正则化的矩阵为 X T X + λ I X^TX+\lambda I XTX+λI x T ( X T X + λ I ) x = x T X T X x + x T λ I x = ∣ ∣ y ∣ ∣ 2 + λ ∣ ∣ x ∣ ∣ 2 > λ ∣ ∣ x ∣ ∣ 2 > 0 x^T(X^TX+\lambda I)x=x^TX^TXx+x^T\lambda Ix=||y||^2+\lambda||x||^2>\lambda||x||^2>0 xT(XTX+λI)x=xTXTXx+xTλIx=y2+λx2>λx2>0这就是为什么加了正则化后矩阵可逆

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值