一般的线性回归是由
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn)预测
y
y
y,损失函数采用均方差函数
M
S
E
=
1
m
∑
i
=
1
n
∥
y
^
2
−
y
2
∥
2
MSE=\frac{1}{m}\sum_{i=1}^{n}\left\|\hat{y} ^2-y^2\right\|^2
MSE=m1i=1∑n∥∥y^2−y2∥∥2
利用极大似然估计进行推导
想象输入同样的X,预测值
y
^
2
\hat{y} ^2
y^2有很多个。输入同样的X,普通线性回归的预测值只有一个,这里假设预测值服从某个分布。这里采用
p
(
y
∣
X
)
p(y|X)
p(y∣X)表示
y
y
y出现的概率。
线性回归函数为
y
=
θ
T
x
+
ϵ
y=\theta^Tx+\epsilon
y=θTx+ϵ
假设
p
(
y
∣
X
)
p(y|X)
p(y∣X)服从正态分布,即
p
(
y
∣
X
)
=
N
(
y
;
0
,
σ
2
)
p(y|X)=N(y;0,\sigma^2)
p(y∣X)=N(y;0,σ2),
也即
ϵ
∼
N
(
y
;
0
,
σ
2
)
\epsilon\sim{N(y;0,\sigma^2)}
ϵ∼N(y;0,σ2)
似然函数为
L
(
θ
)
=
∏
i
=
1
m
p
(
ϵ
)
=
∏
i
=
1
m
1
2
π
σ
e
−
ϵ
2
2
σ
2
L(\theta)=\prod_{i=1}^{m}p(\epsilon) =\prod_{i=1}^{m}\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{\epsilon^2}{2\sigma^2}}
L(θ)=i=1∏mp(ϵ)=i=1∏m2πσ1e−2σ2ϵ2
=
(
1
2
π
σ
)
m
e
−
∑
i
=
1
m
ϵ
2
2
σ
2
=(\frac{1}{\sqrt{2\pi}\sigma})^{m}e^{-\sum{_{i=1}^{m}\frac{\epsilon^2}{2\sigma^2}}}
=(2πσ1)me−∑i=1m2σ2ϵ2
取对数可以得到
l
n
L
(
θ
)
=
−
m
l
n
(
2
π
)
−
m
l
n
(
σ
)
−
∑
i
=
1
m
ϵ
2
2
σ
2
lnL(\theta)=-mln(\sqrt{2\pi})-mln(\sigma)-\sum_{i=1}^{m}\frac{\epsilon^2}{2\sigma^2}
lnL(θ)=−mln(2π)−mln(σ)−i=1∑m2σ2ϵ2
=
−
m
2
l
n
(
2
π
)
−
m
l
n
(
σ
)
−
1
2
σ
2
∑
i
=
1
m
(
y
−
θ
T
X
)
=-\frac{m}{2}ln(2\pi)-mln(\sigma)-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y-\theta^{T}X)
=−2mln(2π)−mln(σ)−2σ21i=1∑m(y−θTX)
所以有
l
o
s
s
=
min
θ
−
l
n
L
(
θ
)
=
1
2
∑
i
=
1
m
(
y
−
θ
T
X
)
loss=\min\limits_{\theta}{-lnL(\theta)}\\ =\frac{1}{2}\sum_{i=1}^{m}(y-\theta^{T}X)
loss=θmin−lnL(θ)=21i=1∑m(y−θTX)
由上式可以看出,利用极大似然估计得出的对数似然函数与均方差相似,最大化对数似然与最小化均方差会得到相同的参数。
结论
线性回归:假定误差项
ϵ
∼
N
(
y
;
0
,
σ
2
)
\epsilon\sim{N(y;0,\sigma^2)}
ϵ∼N(y;0,σ2),或者预测项
y
∼
N
(
y
;
μ
,
σ
2
)
y\sim{N(y;\mu,\sigma^2)}
y∼N(y;μ,σ2)。
最小化负的对数似然等价于最小化均方误差。