线性回归——最小二乘法
一、绪论
机器学习的本质就是要学到模型中的参数,根据看待参数的方法的不同,机器学习可以分为频率派和概率派,即统计机器学习和概率图模型。
数据:
X
=
(
x
1
x
2
x
3
.
.
.
x
N
)
X=(x_1~~x_2~~x_3~...~x_N)
X=(x1 x2 x3 ... xN)
=
=
=
(
x
11
x
12
x
13
.
.
.
x
1
n
x
21
x
22
x
23
.
.
.
x
2
n
.
.
.
x
N
1
x
N
2
x
N
3
.
.
.
x
N
n
)
\begin{pmatrix} x_{11}~~x_{12}~~x_{13}~...~x_{1n}\\x_{21}~~x_{22}~~x_{23}~...~x_{2n}\\...\\x_{N1}~~x_{N2}~~x_{N3}~...~x_{Nn}\end{pmatrix}
⎝⎜⎜⎛x11 x12 x13 ... x1nx21 x22 x23 ... x2n...xN1 xN2 xN3 ... xNn⎠⎟⎟⎞
参数:
θ
\theta
θ
1、频率派——统计机器学习
认为
θ
\theta
θ是未知的常量,使用MLE(最大似然估计),MLE即再当前参数下使得概率最大。
MLE:
a
r
g
m
a
x
θ
P
(
X
∣
θ
)
\underset{\theta~~~~~~~~~~~}{arg~max}~P(X|\theta)
θ arg max P(X∣θ)
2、概率派——概率图模型
认为
θ
\theta
θ是随机变量,有概率分布函数
p
(
θ
)
p(\theta)
p(θ),使用MAP(最大后验概率估计)。
MAP:
a
r
g
m
a
x
θ
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
p
(
θ
)
P
(
X
)
=
P
(
θ
∣
X
)
∫
θ
P
(
X
∣
θ
)
p
(
θ
)
d
θ
\underset{\theta~~~~~~~~~~~~}{arg~max}~P(\theta|X)=\frac{P(X|\theta)p(\theta)}{P(X)}\\ \\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{P(\theta|X)}{\int_\theta P(X|\theta)p(\theta)d\theta}
θ arg max P(θ∣X)=P(X)P(X∣θ)p(θ) =∫θP(X∣θ)p(θ)dθP(θ∣X)
MAP估计参数的时候,一般不考虑分母,对 θ \theta θ积分,分母可以视为一个常数,MAP也称为贝叶斯估计。
贝叶斯预测,根据X和
θ
\theta
θ对
x
^
\hat{x}
x^进行预测:
P
(
x
^
∣
X
)
=
∫
θ
P
(
x
^
,
θ
∣
X
)
d
θ
=
∫
θ
P
(
x
^
∣
θ
)
p
(
θ
∣
X
)
d
θ
P(\hat{x}|X)=\int_\theta P(\hat{x},\theta|X)d\theta \\ ~~~~~~~~~~~~~=\int_\theta P(\hat{x}|\theta)p(\theta|X)d\theta
P(x^∣X)=∫θP(x^,θ∣X)dθ =∫θP(x^∣θ)p(θ∣X)dθ
贝叶斯决策中, θ \theta θ将未知 x ^ \hat{x} x^与已知 X X X联系起来。在贝叶斯决策中,因为要计算具体的概率,所以要求出 P ( θ ∣ X ) P(\theta|X) P(θ∣X),所以计算 P ( X ) P(X) P(X),即涉及积分计算。
3、关系
θ \theta θ的先验概率 p ( θ ) p(\theta) p(θ)将似然函数 P ( x ∣ θ ) P(x|\theta) P(x∣θ)与后验概率 P ( θ ∣ x ) P(\theta|x) P(θ∣x)联系起来。
4、小结
频率派——统计机器学习:
(1)模型(可能与概率有关)
(2)
l
o
s
s
f
u
n
c
t
i
o
n
loss function
lossfunction
(3)优化问题
贝叶斯派——概率图模型:本质为求积分。
二、线性回归及其几何意义
1、从图看线性回归
如上图所示有一些样本点,找一条直线去拟合这些样本点。
D
a
t
a
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
(
x
3
,
y
3
)
,
.
.
.
(
x
N
,
y
N
)
}
,
其
中
x
i
∈
R
n
,
y
i
∈
R
,
x
i
=
(
x
i
1
x
i
2
x
i
3
.
.
.
x
i
n
)
T
Data=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...(x_N,y_N)\},其中x_i\in R^n,y_i\in R,x_i=(x_{i1}~~x_{i2}~~x_{i3}~...~x_{in})^T
Data={(x1,y1),(x2,y2),(x3,y3),...(xN,yN)},其中xi∈Rn,yi∈R,xi=(xi1 xi2 xi3 ... xin)T。
目标:
f
(
x
i
)
=
w
T
x
i
+
b
,
f(x_i) =w^Tx_i+b,
f(xi)=wTxi+b,写为增广形式,则为
f
(
x
i
)
=
w
T
x
i
f(x_i)=w^Tx_i
f(xi)=wTxi。
数据矩阵表示:
X
=
(
x
1
x
2
.
.
.
x
N
)
T
X=(x_1~~x_2~~...~~x_N)^T
X=(x1 x2 ... xN)T
=
(
x
11
x
12
x
13
.
.
.
.
x
1
n
1
x
21
x
22
x
23
.
.
.
.
x
2
n
1
.
.
.
.
x
N
1
x
N
2
x
N
3
.
.
.
.
x
N
n
1
)
=\begin{pmatrix} x_{11}~~~x_{12}~~~x_{13}~~~....~~~x_{1n}~~~1\\x_{21}~~~x_{22}~~~x_{23}~~~....~~~x_{2n}~~~1\\~~~~~~~~~~~~....\\x_{N1}~~~x_{N2}~~~x_{N3}~~~....~~~x_{Nn}~~~1 \end{pmatrix}
=⎝⎜⎜⎛x11 x12 x13 .... x1n 1x21 x22 x23 .... x2n 1 ....xN1 xN2 xN3 .... xNn 1⎠⎟⎟⎞
一行为一个样本,X的维度为N*(n+1)。
Y
=
(
y
1
y
2
.
.
.
y
N
)
T
Y=(y_1~~~y_2~~~...~~~y_N)^T
Y=(y1 y2 ... yN)T。
LSE(最小二乘估计):线性回归,思想即找到
l
o
s
s
f
u
n
c
i
t
o
n
loss funciton
lossfunciton,最小化
l
o
s
s
f
u
n
c
t
i
o
n
loss function
lossfunction。
l
o
s
s
f
u
n
c
t
i
o
n
loss function
lossfunction:
L
(
w
)
=
∑
i
=
1
N
∣
∣
f
(
x
i
)
−
y
i
∣
∣
2
=
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
=
∑
i
=
1
N
(
w
T
x
i
−
y
i
)
(
w
T
x
i
−
y
i
)
=
(
w
T
x
1
−
y
1
w
T
x
2
−
y
2
.
.
.
w
T
x
N
−
y
N
)
(
w
T
x
1
−
y
1
w
T
x
2
−
y
2
.
.
.
w
T
x
N
−
y
N
)
=
(
w
T
X
T
−
Y
T
)
(
w
T
X
T
−
Y
T
)
T
=
w
T
X
T
X
w
−
2
w
T
X
T
Y
+
Y
T
Y
L(w)=\sum\limits_{i=1}^N||f(x_i)-y_i||^2 \\ =\sum\limits_{i=1}^N||w^Tx_i-y_i||^2\\=\sum\limits_{i=1}^N(w^Tx_i-y_i)(w^Tx_i-y_i)\\=\begin{pmatrix}w^Tx_1-y_1~~~w^Tx_2-y_2~~~...~~~w^Tx_N-y_N \end{pmatrix}\begin{pmatrix} w^Tx_1-y_1\\w^Tx2-y2\\...\\w^Tx_N-y_N\end{pmatrix}\\=(w^TX^T-Y^T)(w^TX^T-Y^T)^T\\=w^TX^TXw-2w^TX^TY+Y^TY
L(w)=i=1∑N∣∣f(xi)−yi∣∣2=i=1∑N∣∣wTxi−yi∣∣2=i=1∑N(wTxi−yi)(wTxi−yi)=(wTx1−y1 wTx2−y2 ... wTxN−yN)⎝⎜⎜⎛wTx1−y1wTx2−y2...wTxN−yN⎠⎟⎟⎞=(wTXT−YT)(wTXT−YT)T=wTXTXw−2wTXTY+YTY
目标:最小化loss function
⇒
a
r
g
m
i
n
θ
L
(
w
)
⇒
∂
L
(
w
)
∂
w
=
0
⇒
w
∗
=
(
X
T
X
)
−
1
X
T
Y
\Rightarrow \underset{\theta~~~~~~~~~~}{arg~min} L(w)\\ \Rightarrow \frac{\partial L(w)}{\partial w}=0\\ \Rightarrow w^*=(X^TX)^{-1}X^TY
⇒θ arg minL(w)⇒∂w∂L(w)=0⇒w∗=(XTX)−1XTY
从
l
o
s
s
f
u
n
c
t
i
o
n
loss function
lossfunction看,LSE考虑了每个样本的误差,可以理解为将误差平摊到所有的样本上。
从几何角度看LSE:
x
∈
R
n
,
x
=
(
x
1
,
x
2
,
x
3
,
.
.
.
,
x
n
)
x\in R^n,x=(x^1,x^2,x^3,...,x^n)
x∈Rn,x=(x1,x2,x3,...,xn),则样本的n维构成一个平面,而
y
y
y不在该平面上(若在,则
y
y
y可以直接由
x
x
x的各维组成,无误差,则完全拟合,也就不存在误差了),所以
y
y
y在
x
x
x张成的平面外,而
f
(
x
)
f(x)
f(x)是
x
x
x各维线性组合,所以在该平面内。
因此:
LSE
⇒
\Rightarrow
⇒找到
f
(
x
)
f(x)
f(x)使得向量
y
y
y与
f
(
x
)
f(x)
f(x)之间的距离最短
⇒
\Rightarrow
⇒
y
y
y到平面的投影为
f
(
x
)
f(x)
f(x),此时距离最短
⇒
\Rightarrow
⇒
y
−
f
(
x
)
y-f(x)
y−f(x)垂直于平面的任意向量
⇒
\Rightarrow
⇒
X
T
(
Y
−
X
w
)
=
0
X^T(Y-Xw)=0
XT(Y−Xw)=0
⇒
w
∗
=
(
X
T
X
)
−
1
X
T
Y
\Rightarrow w^*=(X^TX)^{-1}X^TY
⇒w∗=(XTX)−1XTY
最优解不一定存在,因为可能逆不存在。
LSE的几何角度看,将误差分摊到每个样本的每一维,因为每一维共同张成的平面,而该平面决定了于
y
y
y的误差,所以相当于将误差平摊到每一维。
三、LSE频率视角(统计学习方法)
参数:
w
w
w,视为未知的常量
结论:LSE等价于高斯噪声的MLE
证明:数据同(二),有高斯噪声
ϵ
服
从
N
(
0
,
σ
2
)
,
即
y
i
=
f
(
x
i
)
+
ϵ
,
则
y
i
服
从
N
(
f
(
x
i
)
,
σ
2
)
。
\epsilon服从N(0,\sigma^2),即y_i=f(x_i)+\epsilon,则y_i服从N(f(x_i),\sigma^2)。
ϵ服从N(0,σ2),即yi=f(xi)+ϵ,则yi服从N(f(xi),σ2)。
MLE:
a
r
g
m
a
x
w
P
(
Y
∣
w
)
=
a
r
g
m
a
x
w
∏
i
=
1
N
P
(
y
i
∣
w
)
⇒
a
r
g
m
a
x
w
∑
i
=
1
N
l
o
g
P
(
y
i
∣
w
)
其
中
,
P
(
y
i
∣
w
)
=
1
2
π
σ
e
x
p
(
−
(
y
i
−
f
(
x
i
)
)
2
2
σ
2
)
⇒
a
r
g
m
a
x
w
∑
i
=
1
N
(
−
(
y
i
−
f
(
x
i
)
)
2
2
σ
2
)
⇒
a
r
g
m
i
n
w
∑
i
=
1
N
(
(
y
i
−
f
(
x
i
)
)
2
)
⇒
a
r
g
m
i
n
w
∑
i
=
1
N
(
(
y
i
−
w
T
x
i
)
2
)
\underset{w~~~~~~~~~~}{arg max} P(Y|w)\\=\underset{w~~~~~~~~~~}{argmax}\prod\limits_{i=1}^NP(y_i|w)\\\Rightarrow\underset{w~~~~~~~~~}{argmax}\sum\limits_{i=1}^NlogP(y_i|w)\\其中,P(y_i|w)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-f(x_i))^2}{2\sigma^2})\\\Rightarrow\underset{w~~~~~~~~~~~}{argmax}\sum\limits_{i=1}^N(-\frac{(y_i-f(x_i))^2}{2\sigma^2})\\\Rightarrow\underset{w~~~~~~~~~~}{argmin}\sum\limits_{i=1}^N((y_i-f(x_i))^2)\\ \Rightarrow\underset{w~~~~~~~~~}{argmin}\sum\limits_{i=1}^N((y_i-w^Tx_i)^2)
w argmaxP(Y∣w)=w argmaxi=1∏NP(yi∣w)⇒w argmaxi=1∑NlogP(yi∣w)其中,P(yi∣w)=2πσ1exp(−2σ2(yi−f(xi))2)⇒w argmaxi=1∑N(−2σ2(yi−f(xi))2)⇒w argmini=1∑N((yi−f(xi))2)⇒w argmini=1∑N((yi−wTxi)2)
与LSE的
l
o
s
s
f
u
n
c
t
i
o
n
loss function
lossfunction相同
四、LSE的正则化
1、过拟合
(1)LSE中需要有N>>n,即样本数量需远远大于数据的维度,否则会产生过拟合的问题。
(2)解决过拟合的方法:增加数据、特征选择\特征提取、正则化。
2、正则化
a
r
g
m
i
n
w
[
L
(
w
)
+
λ
P
(
w
)
]
其
中
,
L
(
w
)
为
l
o
s
s
f
u
n
c
t
i
o
n
,
P
(
w
)
为
正
则
项
\underset{w~~~~~~~~~~~}{argmin}[L(w)+\lambda P(w)]\\其中,L(w)为loss function,P(w)为正则项
w argmin[L(w)+λP(w)]其中,L(w)为lossfunction,P(w)为正则项
根据正则项的不同,可以分为:
(1)
l
a
s
s
o
:
L
1
回
归
,
P
(
w
)
=
∣
∣
w
∣
∣
1
lasso:L1回归,P(w)=||w||_1
lasso:L1回归,P(w)=∣∣w∣∣1
(2)
岭
回
归
:
L
2
回
归
,
P
(
w
)
=
∣
∣
w
∣
∣
2
岭回归:L2回归,P(w)=||w||_2
岭回归:L2回归,P(w)=∣∣w∣∣2
3、LSE+正则化
岭回归:
J
(
w
)
=
∑
i
=
1
N
∣
∣
y
i
−
f
(
x
i
)
∣
∣
2
2
+
∣
∣
w
∣
∣
2
2
⇒
m
i
n
J
(
w
)
⇒
m
i
n
(
w
T
X
T
X
w
−
2
w
T
X
T
Y
+
Y
T
Y
+
λ
w
T
w
⇒
∂
J
(
w
)
∂
w
=
0
⇒
w
∗
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
J(w)=\sum\limits_{i=1}^N||y_i-f(x_i)||_2^2+||w||_2^2\\\Rightarrow minJ(w)\\\Rightarrow min(w^TX^TXw-2w^TX^TY+Y^TY+\lambda w^Tw\\\Rightarrow \frac{\partial J(w)}{\partial w}=0\\\Rightarrow w^*=(X^TX+\lambda I)^{-1}X^TY
J(w)=i=1∑N∣∣yi−f(xi)∣∣22+∣∣w∣∣22⇒minJ(w)⇒min(wTXTXw−2wTXTY+YTY+λwTw⇒∂w∂J(w)=0⇒w∗=(XTX+λI)−1XTY
最优解一定存在,因为逆一定存在。
五、LSE概率视角(贝叶斯角度)
参数:
w
w
w
结论:LSE+L2等价于
p
(
w
)
=
N
(
0
,
σ
0
2
)
p(w)=N(0,\sigma_0^2)
p(w)=N(0,σ02)的MAP。
回顾:MLE与MAP有关系,两者通过参数联系,所以在这里使用了MLE中的分布有高斯噪声。
假设:噪声
ϵ
\epsilon
ϵ服从
N
(
0
,
σ
2
)
,
y
i
=
f
(
x
i
)
+
ϵ
,
w
服
从
N
(
0
,
σ
0
2
)
。
N(0,\sigma^2),y_i=f(x_i)+\epsilon,w服从N(0,\sigma_0^2)。
N(0,σ2),yi=f(xi)+ϵ,w服从N(0,σ02)。
MAP:
J
(
w
)
=
m
a
x
P
(
X
∣
w
)
P
(
w
)
⇒
m
a
x
l
o
g
P
(
X
∣
w
)
P
(
w
)
⇒
m
a
x
l
o
g
∏
i
=
1
N
P
(
x
i
∣
w
)
+
l
o
g
P
(
w
)
⇒
m
a
x
∑
i
=
1
N
l
o
g
P
(
x
i
∣
w
)
+
l
o
g
P
(
w
)
⇒
m
a
x
(
∑
i
=
1
N
(
−
(
y
i
−
f
(
x
i
)
)
2
)
2
σ
2
)
−
w
T
w
2
σ
0
2
⇒
m
i
n
(
∑
i
=
1
N
(
y
i
−
f
(
x
i
)
)
2
)
+
σ
2
σ
0
2
∣
∣
w
∣
∣
2
2
J(w)=max~P(X|w)P(w)\\\Rightarrow max~logP(X|w)P(w)\\\Rightarrow max~log\prod\limits_{i=1}^NP(x_i|w)+logP(w)\\\Rightarrow~max\sum\limits_{i=1}^NlogP(x_i|w)+logP(w)\\\Rightarrow max(\sum\limits_{i=1}^N\frac{(-(y_i-f(x_i))^2)}{2\sigma^2})-\frac{w^Tw}{2\sigma_0^2}\\\Rightarrow min(\sum\limits_{i=1}^N(y_i-f(x_i))^2)+\frac{\sigma^2}{\sigma_0^2}||w||_2^2
J(w)=max P(X∣w)P(w)⇒max logP(X∣w)P(w)⇒max logi=1∏NP(xi∣w)+logP(w)⇒ maxi=1∑NlogP(xi∣w)+logP(w)⇒max(i=1∑N2σ2(−(yi−f(xi))2))−2σ02wTw⇒min(i=1∑N(yi−f(xi))2)+σ02σ2∣∣w∣∣22
令
λ
=
σ
2
σ
0
2
,
则
M
A
P
为
L
S
E
+
L
2
\lambda=\frac{\sigma^2}{\sigma_0^2},则MAP为LSE+L2
λ=σ02σ2,则MAP为LSE+L2