文章目录
线性回归的数学原理-机器学习-白板推导笔记3
所有内容均为从www.bilibili.com/video/av70839977的视频课中总结,并添加了一些浅薄的个人理解。本人小白,如有错误,欢迎指正。
最小二乘法及其几何意义
我们所有的数据
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
n
,
y
n
)
}
D=\{(x_1,y_1),(x_2,y_2),\cdots, (x_n,y_n)\}
D={(x1,y1),(x2,y2),⋯,(xn,yn)}
其中
x
i
∈
R
p
,
y
∈
R
,
i
=
1
,
2
,
⋯
,
N
x_i \in \mathbb{R}^p, y\in \mathbb{R},i=1,2,\cdots,N
xi∈Rp,y∈R,i=1,2,⋯,N
X
=
(
x
1
,
x
2
,
⋯
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
=
[
x
11
x
12
⋯
x
1
p
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
x
N
1
x
N
2
⋯
x
N
p
]
N
×
p
X= (x_1,x_2,\cdots,x_N)^T = \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T \end{pmatrix}=\begin{bmatrix} x_{11} & x_{12}&\cdots&x_{1p} \\ x_{21} & x_{22}&\cdots&x_{2p} \\ \vdots & \vdots &&\vdots\\ x_{N1} & x_{N2}&\cdots&x_{Np} \end{bmatrix}_{N\times p}
X=(x1,x2,⋯,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞=⎣⎢⎢⎢⎡x11x21⋮xN1x12x22⋮xN2⋯⋯⋯x1px2p⋮xNp⎦⎥⎥⎥⎤N×p
Y
=
(
y
1
y
2
⋮
y
n
)
N
×
1
Y=\begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix}_{N\times 1}
Y=⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞N×1
其中,我们的要拟合的直线
y
=
w
T
x
+
w
0
x
0
y=w^Tx + w_0x_0
y=wTx+w0x0,后面的项为偏置项。为了简化我们的式子,我们把
w
0
x
0
w_0x_0
w0x0这一项归到
w
T
x
w^Tx
wTx中。
最小二乘估计:
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 (2范数的平方) = ∑ i = 1 N ( w T x i − y i ) 2 (由于是一个数所以可以写成这个形式) = ( w T x 1 − y 1 , w T x 2 − y 2 , ⋯ , w T x N − y N ) ( w T x 1 − y 1 w T x 2 − y 2 ⋮ w T x N − y N ) (分解成两个向量的乘积) = ( ( w T x 1 , w T x 2 , ⋯ , w T x n ) − ( y 1 , y 2 , ⋯ , y n ) ) ( w T x 1 − y 1 w T x 2 − y 2 ⋮ w T x N − y N ) = ( w T ( x 1 , x 2 , ⋯ , x n ) − ( y 1 , y 2 , ⋯ , y n ) ) ( w T x 1 − y 1 w T x 2 − y 2 ⋮ w T x N − y N ) = ( w T X T − Y T ) ( X w − Y ) (右边的项由左边进行转置可得) = w T X T X w − w T X T Y − Y T X w + Y T Y ( 其中 w p × 1 , X p × N , Y N × 1 ) = w T X T X w − 2 w T X T Y + Y T Y ( 因 为 其 中 两 不 是 向 量 而 是 数 字 所 以 转 置 等 于 自 身 因 此 可 以 合 并 ) \begin{aligned} L(w)& = \sum_{i=1}^N||w^Tx_i-y_i||^2 \text{(2范数的平方)}\\ &= \sum_{i=1}^N(w^Tx_i-y_i)^2 \text{(由于是一个数所以可以写成这个形式)}\\ &=(w^Tx_1-y_1, w^Tx_2-y_2,\cdots,w^Tx_N-y_N)\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\text{(分解成两个向量的乘积)}\\ &=((w^Tx_1,w^Tx_2,\cdots,w^Tx_n)-(y_1,y_2,\cdots,y_n))\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\\ &=(w^T(x_1,x_2,\cdots,x_n)-(y_1,y_2,\cdots,y_n))\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\\ &=(w^TX^T-Y^T)(Xw-Y)\text{(右边的项由左边进行转置可得)}\\ &=w^TX^TXw-w^TX^TY-Y^TXw+Y^TY(\text{其中}w_{p\times1},X_{p\times N},Y_{N\times 1})\\ &=w^TX^TXw-2w^TX^TY+Y^TY(因为其中两不是向量而是数字所以转置等于自身因此可以合并) \end{aligned} L(w)=i=1∑N∣∣wTxi−yi∣∣2(2范数的平方)=i=1∑N(wTxi−yi)2(由于是一个数所以可以写成这个形式)=(wTx1−y1,wTx2−y2,⋯,wTxN−yN)⎝⎜⎜⎜⎛wTx1−y1wTx2−y2⋮wTxN−yN⎠⎟⎟⎟⎞(分解成两个向量的乘积)=((wTx1,wTx2,⋯,wTxn)−(y1,y2,⋯,yn))⎝⎜⎜⎜⎛wTx1−y1wTx2−y2⋮wTxN−yN⎠⎟⎟⎟⎞=(wT(x1,x2,⋯,xn)−(y1,y2,⋯,yn))⎝⎜⎜⎜⎛wTx1−y1wTx2−y2⋮wTxN−yN⎠⎟⎟⎟⎞=(wTXT−YT)(Xw−Y)(右边的项由左边进行转置可得)=wTXTXw−wTXTY−YTXw+YTY(其中wp×1,Xp×N,YN×1)=wTXTXw−2wTXTY+YTY(因为其中两不是向量而是数字所以转置等于自身因此可以合并)
我们需要
L
(
w
)
L(w)
L(w)取得最小值,因为
L
(
w
)
L(w)
L(w)关于
w
w
w是一个凸函数所以当
L
(
w
)
L(w)
L(w)关于
w
w
w的导数为零时,得到
w
w
w的最优解。
w
^
=
a
r
g
m
i
n
L
(
w
)
\hat{w}=argmin L(w)
w^=argminL(w)
令
∂
L
∂
w
=
2
X
T
X
w
−
2
X
T
Y
=
0
令\frac{\partial L}{\partial w}=2X^TXw-2X^TY=0
令∂w∂L=2XTXw−2XTY=0得到
X
T
X
w
=
X
T
Y
⇒
w
^
=
(
X
T
X
)
−
1
X
T
Y
X^TXw=X^TY \Rightarrow \hat{w}=(X^TX)^{-1}X^TY
XTXw=XTY⇒w^=(XTX)−1XTY
分析:这个式子中
(
X
T
X
)
−
1
X
T
(X^TX)^{-1}X^T
(XTX)−1XT被称为伪逆
X
+
X^+
X+。上述过程中涉及到对
X
T
X
X^TX
XTX这个矩阵求逆,然而在实际任务中
X
T
X
X^TX
XTX可能不是满秩矩阵,那么就不能直接进行求逆的操作,在机器学习任务中,常见的做法是引入正则化项。
几何解释
几何解释-1
由最小二乘法的式子
L
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
L(w) = \sum_{i=1}^N||w^Tx_i-y_i||^2
L(w)=∑i=1N∣∣wTxi−yi∣∣2结合图可知,我们的最小二乘法相当于求每一个点到直线的距离,把误差分散在每一个点上,求一个总误差最小。
几何解释-2
由
f
(
w
)
=
w
T
x
f(w)=w^Tx
f(w)=wTx,其中
f
(
w
)
=
w
T
x
=
x
T
β
f(w)=w^Tx=x^T\beta
f(w)=wTx=xTβ,我们把
(
x
T
)
1
×
p
(x^T)_{1\times p}
(xT)1×p想象成一个
p
p
p维的系数。
(
X
T
)
N
×
p
(X^T)_{N\times p}
(XT)N×p中数据一共有
N
N
N个系数,都属于
p
p
p维子空间。其中
Y
Y
Y的数据形成的向量不在
p
p
p维子空间内,除非所有的样本点都在我们的
f
(
w
)
=
w
T
x
f(w)=w^Tx
f(w)=wTx直线上。因为噪声不可避免,于是
Y
Y
Y不在
p
p
p维空间之内,所求的就是
Y
Y
Y在子空间的投影。以2维子空间为例,图中
x
1
x_1
x1代表第一维,
x
2
x_2
x2代表第二维。我们需要
Y
Y
Y距离我们的
p
p
p维子空间最近,而图中的投影就是我们要找的
f
(
β
)
f(\beta)
f(β),而
f
(
β
)
f(\beta)
f(β)是一个
x
1
,
⋯
,
x
n
x_1,\cdots,x_n
x1,⋯,xn 的线性组合,
f
(
β
)
=
X
β
f(\beta)=X\beta
f(β)=Xβ。而
Y
−
f
(
β
)
Y-f(\beta)
Y−f(β)就是我们要找的法向量。所以
X
T
(
Y
−
X
β
)
=
0
⇒
X
T
Y
=
X
T
X
β
⇒
β
=
(
X
T
X
)
−
1
X
T
Y
X^T(Y-X\beta)=0 \Rightarrow X^TY=X^TX\beta \Rightarrow \beta = (X^TX)^{-1}X^TY
XT(Y−Xβ)=0⇒XTY=XTXβ⇒β=(XTX)−1XTY
概率视角线性回归
我们所有的数据
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
n
,
y
n
)
}
D=\{(x_1,y_1),(x_2,y_2),\cdots, (x_n,y_n)\}
D={(x1,y1),(x2,y2),⋯,(xn,yn)}
其中
x
i
∈
R
p
,
y
∈
R
,
i
=
1
,
2
,
⋯
,
N
x_i \in \mathbb{R^p}, y\in \mathbb{R},i=1,2,\cdots,N
xi∈Rp,y∈R,i=1,2,⋯,N
X
=
(
x
1
,
x
2
,
⋯
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
=
∣
x
11
x
12
⋯
x
1
p
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
x
N
1
x
N
2
⋯
x
N
p
∣
N
×
p
X= (x_1,x_2,\cdots,x_N)^T = \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T \end{pmatrix}=\begin{vmatrix} x_{11} & x_{12}&\cdots&x_{1p} \\ x_{21} & x_{22}&\cdots&x_{2p} \\ \vdots & \vdots &&\vdots\\ x_{N1} & x_{N2}&\cdots&x_{Np} \end{vmatrix}_{N\times p}
X=(x1,x2,⋯,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞=∣∣∣∣∣∣∣∣∣x11x21⋮xN1x12x22⋮xN2⋯⋯⋯x1px2p⋮xNp∣∣∣∣∣∣∣∣∣N×p
Y
=
(
y
1
y
2
⋮
y
n
)
N
×
1
Y=\begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix}_{N\times 1}
Y=⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞N×1
最小二乘估计:
L
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2
L(w)=i=1∑N∣∣wTxi−yi∣∣2
w
^
=
a
r
g
m
i
n
L
(
w
)
=
(
X
T
X
)
−
1
X
T
Y
\hat{w}=argmin\ L(w)=(X^TX)^{-1}X^TY
w^=argmin L(w)=(XTX)−1XTY
因为数据中都是有噪声的我们设
ε
∼
N
(
0
,
σ
2
)
,
y
=
f
(
w
)
+
ε
,
f
(
w
)
=
w
T
x
,
y
=
w
T
x
+
ε
\varepsilon \sim N(0,\sigma^2),y=f(w)+\varepsilon,f(w)=w^Tx,y=w^Tx+\varepsilon
ε∼N(0,σ2),y=f(w)+ε,f(w)=wTx,y=wTx+ε
y
∣
x
,
w
∼
N
(
w
T
x
,
σ
2
)
y|x,w\sim N(w^Tx,\sigma^2)
y∣x,w∼N(wTx,σ2)
最大似然估计MLE
已知样本之间是相互独立的, p ( y ∣ x , w ) = 1 2 π σ exp { − ( y − w T x ) 2 2 σ 2 } p(y|x,w)=\frac{1}{\sqrt{2\pi}\sigma}\exp^{\{-\frac{(y-w^Tx)^2}{2\sigma^2}\}} p(y∣x,w)=2πσ1exp{−2σ2(y−wTx)2}
L
(
w
)
=
l
o
g
P
(
Y
∣
x
,
w
)
=
l
o
g
∏
i
=
1
N
P
(
y
i
∣
x
i
,
w
)
=
∑
i
=
1
N
l
o
g
P
(
y
i
∣
x
i
,
w
)
=
∑
i
=
1
N
(
l
o
g
1
2
π
σ
+
l
o
g
e
x
p
{
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
}
)
=
∑
i
=
1
N
(
l
o
g
1
2
π
σ
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
\begin{aligned} \mathcal{L(w)}&=log^{P(Y|x,w)}\\ &=log^{\prod_{i=1}^NP(y_i|x_i,w)}\\ &=\sum_{i=1}^N log^{P(y_i|x_i,w)}\\ &=\sum_{i=1}^N \left(log^{\frac{1}{\sqrt{2\pi}\sigma}}+log^{exp^{\{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\}}}\right)\\ &=\sum_{i=1}^N \left(log^{\frac{1}{\sqrt{2\pi}\sigma}}-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right) \end{aligned}
L(w)=logP(Y∣x,w)=log∏i=1NP(yi∣xi,w)=i=1∑NlogP(yi∣xi,w)=i=1∑N(log2πσ1+logexp{−2σ2(yi−wTxi)2})=i=1∑N(log2πσ1−2σ2(yi−wTxi)2)
w
^
=
arg max
w
L
(
w
)
(
由
于
σ
是
常
数
)
=
arg max
w
∑
i
=
1
N
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
=
arg min
w
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
\begin{aligned} \hat{w}&=\argmax \limits_w \mathcal{L}(w)(由于\sigma是常数)\\ &=\argmax \limits_w \sum_{i=1}^N -\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\\ &=\argmin \limits_w \sum_{i=1}^N(y_i-w^Tx_i)^2 \end{aligned}
w^=wargmaxL(w)(由于σ是常数)=wargmaxi=1∑N−2σ2(yi−wTxi)2=wargmini=1∑N(yi−wTxi)2
可以看到结果和最小二乘法得到的是一样的。
线性回归正则化
Loss Function:
L
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2
L(w)=i=1∑N∣∣wTxi−yi∣∣2
w
^
=
(
X
T
X
)
−
1
X
T
Y
\hat{w}=(X^TX)^{-1}X^TY
w^=(XTX)−1XTY
X
N
×
p
N
个
样
本
,
x
i
∈
R
p
,
N
≫
p
X_{N\times p}N个样本,x_i\in \mathbb{R}^p,N\gg p
XN×pN个样本,xi∈Rp,N≫p
这个时候
X
T
X
X^TX
XTX不满秩,所以也就不可逆,在现象上就会出现过拟合。
解决方法:
(1)加数据
(2)特征选择/特征提取(PCA)
(3)正则化
正则化框架
arg min
w
(
L
(
w
)
+
λ
P
(
w
)
)
\argmin \limits_w(L(w)+\lambda P(w))
wargmin(L(w)+λP(w))
L1正则化(Lasso):
P
(
w
)
=
∣
∣
w
∣
∣
1
P(w)=||w||_1
P(w)=∣∣w∣∣1
L2正则化(Ridge)岭回归也叫权重衰减:
P
(
w
)
=
∣
∣
w
∣
∣
2
2
P(w)=||w||^2_2
P(w)=∣∣w∣∣22
岭回归-频率角度
先求解损失函数:
J
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
+
λ
w
T
w
=
(
w
T
X
T
−
Y
T
)
(
X
w
−
Y
)
+
λ
w
T
w
=
w
T
X
T
X
w
−
2
w
T
X
T
Y
+
Y
T
Y
+
λ
w
T
w
=
w
T
(
X
T
X
+
λ
I
)
w
−
2
w
T
X
T
Y
+
Y
T
Y
\begin{aligned} \mathcal{J}(w)&=\sum_{i=1}^N||w^Tx_i-y_i||^2+\lambda w^Tw\\ &=(w^TX^T-Y^T)(Xw-Y)+\lambda w^Tw\\ &=w^TX^TXw-2w^TX^TY+Y^TY+\lambda w^Tw\\ &=w^T(X^TX+\lambda I)w-2w^TX^TY+Y^TY \end{aligned}
J(w)=i=1∑N∣∣wTxi−yi∣∣2+λwTw=(wTXT−YT)(Xw−Y)+λwTw=wTXTXw−2wTXTY+YTY+λwTw=wT(XTX+λI)w−2wTXTY+YTY
我们的目标为:
w
^
=
arg min
w
J
(
w
)
\hat{w}=\argmin \limits_w \mathcal{J}(w)
w^=wargminJ(w)
进行矩阵求导可得:
∂
J
(
w
)
∂
w
=
2
(
X
T
X
+
λ
I
)
w
−
2
X
T
Y
=
0
\frac{\partial \mathcal{J}(w)}{\partial w}=2(X^TX+\lambda I)w-2X^TY = 0
∂w∂J(w)=2(XTX+λI)w−2XTY=0
w
^
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
\hat{w}=(X^TX+\lambda I)^{-1}X^TY
w^=(XTX+λI)−1XTY
这时我们的
(
X
T
X
+
λ
I
)
(X^TX+\lambda I)
(XTX+λI)矩阵就是可逆的了,因为
X
T
X
X^TX
XTX是半正定矩阵,所以加了一个正的对角矩阵一定是正定的,所以就可逆了。
(
因
为
正
定
的
充
分
必
要
条
件
是
其
顺
序
主
子
式
全
大
于
0
,
若
矩
阵
A
正
定
,
则
必
有
∣
A
∣
(
矩
阵
A
的
行
列
式
)
>
0
,
所
以
矩
阵
A
可
逆
)
(因为正定的充分必要条件是其顺序主子式全大于0,若矩阵A正定,则必有 |A|(矩阵A的行列式)>0,所以矩阵A可逆)
(因为正定的充分必要条件是其顺序主子式全大于0,若矩阵A正定,则必有∣A∣(矩阵A的行列式)>0,所以矩阵A可逆)
tips:我们发现了一个神奇的事情,原来线性回归过拟合可以用矩阵的不可逆来解释,我们常用的正则化竟然是让原本不可逆的矩阵变得可逆。
岭回归-贝叶斯角度
f
(
w
)
=
w
T
x
,
y
=
f
(
w
)
+
ε
f(w)=w^Tx,y=f(w)+\varepsilon
f(w)=wTx,y=f(w)+ε
w
∼
N
(
0
,
σ
0
2
)
(
这
是
对
w
的
先
验
)
,
ε
∼
(
0
,
σ
2
)
(
ε
是
噪
声
,
假
设
服
从
正
态
)
w\sim N(0,\sigma^2_0)(这是对w的先验),\varepsilon \sim(0,\sigma^2)(\varepsilon 是噪声,假设服从正态)
w∼N(0,σ02)(这是对w的先验),ε∼(0,σ2)(ε是噪声,假设服从正态)
y
∣
x
,
w
∼
N
(
w
T
x
,
σ
2
)
y|x,w\sim N(w^Tx,\sigma^2)
y∣x,w∼N(wTx,σ2)
P
(
w
∣
y
)
=
P
(
y
∣
w
)
P
(
w
)
p
(
y
)
P(w|y)=\frac{P(y|w)P(w)}{p(y)}
P(w∣y)=p(y)P(y∣w)P(w)
在贝叶斯统计学中,“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。它与最大似然估计中的经典方法有密切关系,但是它使用了一个增广的优化目标,进一步考虑了被估计量的先验概率分布。
MAP(最大后验估计):
M
A
P
:
w
^
=
arg max
w
∑
i
=
1
N
P
(
w
∣
y
i
,
x
i
)
=
arg max
w
∑
i
=
1
N
P
(
y
∣
w
,
x
i
)
P
(
w
)
(
因
为
p
(
y
i
)
的
值
与
w
无
关
所
以
不
用
考
虑
)
=
arg max
w
∑
i
=
1
N
1
2
π
σ
exp
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
1
2
π
σ
0
exp
−
∣
∣
w
∣
∣
2
2
2
σ
0
2
=
arg max
w
∑
i
=
1
N
1
2
π
σ
1
2
π
σ
0
exp
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
−
∣
∣
w
∣
∣
2
2
2
σ
0
2
=
arg max
w
∑
i
=
1
N
log
(
1
2
π
σ
1
2
π
σ
0
)
+
(
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
−
∣
∣
w
∣
∣
2
2
2
σ
0
2
)
(
σ
是
超
参
数
但
是
我
们
可
以
当
做
常
数
)
=
arg min
w
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
2
σ
2
+
∣
∣
w
∣
∣
2
2
2
σ
0
2
=
arg min
w
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
+
σ
2
σ
0
2
∣
∣
w
∣
∣
2
2
\begin{aligned} MAP:\hat{w}&=\argmax \limits_w \sum_{i=1}^N P(w|y_i,x_i)\\ &=\argmax \limits_w \sum_{i=1}^N P(y|w,x_i)P(w)(因为p(y_i)的值与w无关所以不用考虑)\\ &=\argmax \limits_w \sum_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}\frac{1}{\sqrt{2\pi}\sigma_0}\exp^{-\frac{||w||_2^2}{2{\sigma_0}^2}}\\ &=\argmax \limits_w \sum_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma}\frac{1}{\sqrt{2\pi}\sigma_0}\exp^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{||w||_2^2}{2{\sigma_0}^2}}\\ &=\argmax \limits_w \sum_{i=1}^N \log^{\left(\frac{1}{\sqrt{2\pi}\sigma}\frac{1}{\sqrt{2\pi}\sigma_0}\right)}+\left(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{||w||_2^2}{2{\sigma_0}^2} \right)(\sigma 是超参数但是我们可以当做常数)\\ &=\argmin \limits_w \sum_{i=1}^N \frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{||w||_2^2}{2{\sigma_0}^2}\\ &=\argmin \limits_w \sum_{i=1}^N (y_i-w^Tx_i)^2+\frac{\sigma^2}{\sigma^2_0}||w||_2^2 \end{aligned}
MAP:w^=wargmaxi=1∑NP(w∣yi,xi)=wargmaxi=1∑NP(y∣w,xi)P(w)(因为p(yi)的值与w无关所以不用考虑)=wargmaxi=1∑N2πσ1exp−2σ2(yi−wTxi)22πσ01exp−2σ02∣∣w∣∣22=wargmaxi=1∑N2πσ12πσ01exp−2σ2(yi−wTxi)2−2σ02∣∣w∣∣22=wargmaxi=1∑Nlog(2πσ12πσ01)+(−2σ2(yi−wTxi)2−2σ02∣∣w∣∣22)(σ是超参数但是我们可以当做常数)=wargmini=1∑N2σ2(yi−wTxi)2+2σ02∣∣w∣∣22=wargmini=1∑N(yi−wTxi)2+σ02σ2∣∣w∣∣22
这里的
σ
2
σ
0
2
\frac{\sigma^2}{\sigma^2_0}
σ02σ2就相当于上面正则化的
λ
\lambda
λ。前一项相当于Loss,后一项相当于penalty。
总结
L
S
E
(
最
小
二
乘
估
计
)
⟺
M
L
E
(
极
大
似
然
估
计
)
(
n
o
i
s
e
为
G
u
a
s
s
i
a
n
D
i
s
t
)
LSE(最小二乘估计)\Longleftrightarrow MLE(极大似然估计)(noise为Guassian Dist)
LSE(最小二乘估计)⟺MLE(极大似然估计)(noise为GuassianDist)
R
e
g
u
l
a
r
i
z
e
d
L
S
E
⟺
M
A
P
(
最
大
后
验
估
计
)
(
n
o
i
s
e
为
G
u
a
s
s
i
a
n
D
i
s
t
,
先
验
也
是
G
u
a
s
s
i
a
n
D
i
s
t
)
Regularized LSE \Longleftrightarrow MAP(最大后验估计)(noise为Guassian Dist,先验也是Guassian Dist)
RegularizedLSE⟺MAP(最大后验估计)(noise为GuassianDist,先验也是GuassianDist)
附录-相关知识(送给和我一样的小白)
矩阵求导
方法1:
∂
x
T
A
x
∂
x
=
(
A
+
A
T
)
x
\frac{\partial x^TAx}{\partial x}=(A+A^T)x
∂x∂xTAx=(A+AT)x
本文中:
∂
w
T
(
X
T
X
+
λ
I
)
w
∂
w
=
[
(
X
T
X
+
λ
I
)
+
(
X
T
X
+
λ
I
)
T
]
w
=
2
(
X
T
X
+
λ
I
)
w
\frac{\partial w^T(X^TX+\lambda I)w}{\partial w}=[(X^TX+\lambda I)+(X^TX+\lambda I)^T]w=2(X^TX+\lambda I)w
∂w∂wT(XTX+λI)w=[(XTX+λI)+(XTX+λI)T]w=2(XTX+λI)w
方法2:
∂
x
A
∂
x
=
A
(
在
分
母
布
局
的
情
况
下
,
即
x
T
和
y
)
\frac{\partial xA}{\partial x}=A(在分母布局的情况下,即x^T和y)
∂x∂xA=A(在分母布局的情况下,即xT和y)
本文中:
∂
2
w
T
X
T
Y
∂
w
=
2
X
T
Y
\frac{\partial 2w^TX^TY}{\partial w}=2X^TY
∂w∂2wTXTY=2XTY
矩阵求导原理,之后有机会会补充。
正定矩阵
正定矩阵的定义:
一
个
对
称
的
n
×
n
矩
阵
A
,
若
对
R
n
中
的
所
有
非
零
向
量
x
,
x
T
A
x
>
0
,
则
它
为
正
定
的
。
一个对称的n\times n矩阵A,若对\mathbb{R}^n中的所有非零向量x,x^TAx>0,则它为正定的。
一个对称的n×n矩阵A,若对Rn中的所有非零向量x,xTAx>0,则它为正定的。
正定矩阵的性质:
若
A
为
一
对
称
正
定
矩
阵
,
则
d
e
t
(
A
)
>
0
若A为一对称正定矩阵,则det(A)>0
若A为一对称正定矩阵,则det(A)>0
所以正定矩阵是非奇异矩阵也是可逆矩阵。
定理证明:
A
为
一
个
对
称
的
n
×
n
矩
阵
A
⊨
A
可
以
分
解
为
一
个
乘
积
B
T
B
,
其
中
B
为
某
非
奇
异
矩
阵
⟹
A
为
正
定
的
A为一个对称的n\times n矩阵A\models A可以分解为一个乘积B^TB,其中B为某非奇异矩阵\Longrightarrow A为正定的
A为一个对称的n×n矩阵A⊨A可以分解为一个乘积BTB,其中B为某非奇异矩阵⟹A为正定的(其实两个方向都成立,本文只需要一个方向)
假设
A
=
B
T
B
A=B^TB
A=BTB,其中
B
B
B是非奇异的,令
x
x
x为
R
n
R^n
Rn中的任意非零向量,令
y
=
B
x
y=Bx
y=Bx,由于
B
B
B为非奇异的,所以
y
≠
0
y\ne \mathbf{0}
y=0,由此可知
x
T
A
x
=
x
T
B
T
B
x
=
y
T
y
=
∣
∣
y
∣
∣
2
>
0
x^TAx=x^TB^TBx=y^Ty=||y||^2>0
xTAx=xTBTBx=yTy=∣∣y∣∣2>0因此
A
A
A为正定的。
下面解决我们的问题:
我的矩阵是
X
T
X
,
(
X
T
X
)
T
=
X
T
X
X^TX,(X^TX)^T=X^TX
XTX,(XTX)T=XTX所以这是一个对称矩阵,如果
X
X
X是满秩的那个用上述定理就可以证明出
X
T
X
X^TX
XTX是正定矩阵,如果不是的话,那么矩阵不可逆。加了正则化的矩阵为
X
T
X
+
λ
I
X^TX+\lambda I
XTX+λI
x
T
(
X
T
X
+
λ
I
)
x
=
x
T
X
T
X
x
+
x
T
λ
I
x
=
∣
∣
y
∣
∣
2
+
λ
∣
∣
x
∣
∣
2
>
λ
∣
∣
x
∣
∣
2
>
0
x^T(X^TX+\lambda I)x=x^TX^TXx+x^T\lambda Ix=||y||^2+\lambda||x||^2>\lambda||x||^2>0
xT(XTX+λI)x=xTXTXx+xTλIx=∣∣y∣∣2+λ∣∣x∣∣2>λ∣∣x∣∣2>0这就是为什么加了正则化后矩阵可逆