最小二乘法
假设采用二范数定义的平方误差来定义损失函数:
L
(
w
)
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
2
L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2
L(w)=i=1∑N∣∣wTxi−yi∣∣22
展开得到:
L
(
w
)
=
(
w
T
x
1
−
y
1
,
⋯
,
w
T
x
N
−
y
N
)
⋅
(
w
T
x
1
−
y
1
,
⋯
,
w
T
x
N
−
y
N
)
T
=
(
w
T
X
T
−
Y
T
)
⋅
(
X
w
−
Y
)
=
w
T
X
T
X
w
−
Y
T
X
w
−
w
T
X
T
Y
+
Y
T
Y
=
w
T
X
T
X
w
−
2
w
T
X
T
Y
+
Y
T
Y
\begin{align} L(w)&=(w^Tx_1-y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T\nonumber\\ &=(w^TX^T-Y^T)\cdot (Xw-Y)=w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\nonumber\\ &=w^TX^TXw-2w^TX^TY+Y^TY \end{align}
L(w)=(wTx1−y1,⋯,wTxN−yN)⋅(wTx1−y1,⋯,wTxN−yN)T=(wTXT−YT)⋅(Xw−Y)=wTXTXw−YTXw−wTXTY+YTY=wTXTXw−2wTXTY+YTY
现在要最小化这个值的 $ \hat{w}$ :
w
^
=
a
r
g
m
i
n
w
L
(
w
)
⟶
∂
∂
w
L
(
w
)
=
0
⟶
2
X
T
X
w
^
−
2
X
T
Y
=
0
⟶
w
^
=
(
X
T
X
)
−
1
X
T
Y
=
X
+
Y
\begin{align} \hat{w}=\mathop{argmin}\limits_wL(w)&\longrightarrow\frac{\partial}{\partial w}L(w)=0\nonumber\\ &\longrightarrow2X^TX\hat{w}-2X^TY=0\nonumber\\ &\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y \end{align}
w^=wargminL(w)⟶∂w∂L(w)=0⟶2XTXw^−2XTY=0⟶w^=(XTX)−1XTY=X+Y
这个式子中
(
X
T
X
)
−
1
X
T
(X^TX)^{-1}X^T
(XTX)−1XT 又被称为伪逆。对于行满秩或者列满秩的
X
X
X,可以直接求解,但是对于非满秩的样本集合,需要使用奇异值分解(SVD)的方法,对
X
X
X 求奇异值分解,得到
X
=
U
Σ
V
T
X=U\Sigma V^T
X=UΣVT
于是:
X
+
=
V
Σ
−
1
U
T
X^+=V\Sigma^{-1}U^T
X+=VΣ−1UT
在几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和,假设我们的试验样本张成一个
p
p
p 维空间(满秩的情况):
X
=
S
p
a
n
(
x
1
,
⋯
,
x
N
)
X=Span(x_1,\cdots,x_N)
X=Span(x1,⋯,xN),而模型可以写成
f
(
w
)
=
X
β
f(w)=X\beta
f(w)=Xβ,也就是
x
1
,
⋯
,
x
N
x_1,\cdots,x_N
x1,⋯,xN 的某种组合,而最小二乘法就是说希望
Y
Y
Y 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直:
X
T
⋅
(
Y
−
X
β
)
=
0
⟶
β
=
(
X
T
X
)
−
1
X
T
Y
X^T\cdot(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY
XT⋅(Y−Xβ)=0⟶β=(XTX)−1XTY
向量空间视角
总误差分散在N个样本点上,最小二乘法使得我们拟合出的曲线总误差最小。
第二种解释:将原来的函数改写成:
f
(
w
)
=
w
T
x
=
x
T
β
f(w) = w^Tx = x^T\beta
f(w)=wTx=xTβ
这就是一个
p
p
p维空间,使得每个样本点尽可能地在这个空间中
每个样本点拟合的值不一定在 p p p维空间中,这时候做一个法向量 Y − x β Y-x\beta Y−xβ,所有的法向量都和 X X X矩阵垂直。
那么现在得出结论:
x
T
(
Y
−
x
β
)
=
0
x^T(Y-x\beta) = 0
xT(Y−xβ)=0
即:
X
T
(
Y
−
x
β
)
=
0
X
T
Y
=
X
T
x
β
β
=
(
X
T
x
)
−
1
X
T
Y
\begin{align} X^T(Y-x\beta) &= 0 \\ X^TY &= X^Tx\beta \\ \beta &= (X^Tx)^{-1}X^TY \end{align}
XT(Y−xβ)XTYβ=0=XTxβ=(XTx)−1XTY
概率视角
噪声成高斯分布
最幸运的情况:所有数据都在一个直线上。
但是现实生活中的数据有噪声,这里假设噪声的概率服从一个高斯分布。
对于一维的情况,记
y
=
w
T
x
+
ϵ
,
ϵ
∼
N
(
0
,
σ
2
)
y=w^Tx+\epsilon,\epsilon\sim\mathcal{N}(0,\sigma^2)
y=wTx+ϵ,ϵ∼N(0,σ2),那么
y
∼
N
(
w
T
x
,
σ
2
)
y\sim\mathcal{N}(w^Tx,\sigma^2)
y∼N(wTx,σ2)。代入极大似然估计(MLE)中:
L
(
w
)
=
log
p
(
Y
∣
X
,
w
)
=
log
∏
i
=
1
N
p
(
y
i
∣
x
i
,
w
)
=
∑
i
=
1
N
log
(
1
2
π
σ
e
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
a
r
g
m
a
x
w
L
(
w
)
=
a
r
g
m
i
n
w
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
\begin{align} L(w)=\log p(Y|X,w)&=\log\prod\limits_{i=1}^Np(y_i|x_i,w)\nonumber\\ &=\sum\limits_{i=1}^N\log(\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\\ \mathop{argmax}\limits_wL(w)&=\mathop{argmin}\limits_w\sum\limits_{i=1^N}(y_i-w^Tx_i)^2 \end{align}
L(w)=logp(Y∣X,w)wargmaxL(w)=logi=1∏Np(yi∣xi,w)=i=1∑Nlog(2πσ1e−2σ2(yi−wTxi)2)=wargmini=1N∑(yi−wTxi)2
这个表达式和最小二乘估计得到的结果一样。