参考自here
事实上如果从贝叶斯的观点,所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化,Gauss(高斯)先验会导出L2正则化。
高斯分布公式
f ( x ) = 1 2 π δ e x p ( − ( x − μ ) 2 2 δ 2 ) f(x) = \frac{1}{\sqrt{2π}\delta}exp(-\frac{(x-\mu)^2}{2\delta^2}) f(x)=2πδ1exp(−2δ2(x−μ)2)
最大似然估计
如果数据集
(
X
,
Y
)
(X,Y)
(X,Y),并且
Y
Y
Y是有白噪声(就是与测量得到的
Y
Y
Y与真实的
Y
r
e
a
l
Y_{real}
Yreal有均值为零的高斯分布误差),目的是用新产生的
X
X
X来得到
Y
Y
Y,如果用线性模型来测量,那么有:
f
(
x
)
=
∑
i
(
x
i
θ
i
)
+
ϵ
=
X
θ
T
+
ϵ
f(x) = \sum_i(x_i\theta_i) + \epsilon = X\theta^T+ \epsilon
f(x)=∑i(xiθi)+ϵ=XθT+ϵ
其中
ϵ
\epsilon
ϵ是白噪声,即
ϵ
\epsilon
ϵ服从
N
(
0
,
δ
2
)
N(0,\delta^2)
N(0,δ2)分布。
一对数据集
(
X
i
,
Y
i
)
(X_i,Y_i)
(Xi,Yi)来用,在这个模型中用
X
i
X_i
Xi得到
Y
i
Y_i
Yi的概率是
Y
i
Y_i
Yi服从
N
(
f
(
X
i
)
,
δ
2
)
N(f(X_i),δ^2)
N(f(Xi),δ2):
P
(
Y
i
∣
X
i
,
θ
)
=
1
2
π
δ
e
x
p
(
−
∣
∣
f
(
X
i
)
−
Y
i
∣
∣
2
2
δ
2
)
P(Y_i|X_i,\theta) = \frac{1}{\sqrt{2π}\delta}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2})
P(Yi∣Xi,θ)=2πδ1exp(−2δ2∣∣f(Xi)−Yi∣∣2)
假设数据集中每一对数据都是独立的,那么对于数据集来说由
X
X
X得到
Y
Y
Y的概率是:
P
(
Y
i
∣
X
i
,
θ
)
=
∏
i
1
2
π
δ
e
x
p
(
−
∣
∣
f
(
X
i
)
−
Y
i
∣
∣
2
2
δ
2
)
P(Y_i|X_i,\theta) = \prod_i \frac{1}{\sqrt{2π}\delta}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2})
P(Yi∣Xi,θ)=∏i2πδ1exp(−2δ2∣∣f(Xi)−Yi∣∣2)
根据决策论可知,可以使概率
P
(
Y
∣
X
,
θ
)
P(Y|X,\theta)
P(Y∣X,θ)最大的参数
θ
∗
\theta*
θ∗就是最好的参数。那么我们可以直接得到最大似然估计的直观理解:对于一个模型,调整参数
θ
\theta
θ,使得用X得到Y的概率最大。那么
θ
\theta
θ可由下式得到:
θ
∗
=
a
r
g
m
a
x
θ
(
∏
i
1
2
π
ϵ
e
x
p
(
−
∣
∣
f
(
X
i
)
−
Y
i
∣
∣
2
2
δ
2
)
)
=
a
r
g
m
a
x
θ
(
−
1
2
δ
2
∑
i
∣
∣
f
(
X
i
)
−
Y
i
∣
∣
2
+
∑
i
l
n
(
δ
2
π
)
=
a
r
g
m
i
n
θ
(
∑
i
∣
∣
f
(
X
i
)
−
Y
i
∣
∣
2
)
\begin{aligned} \theta* &= argmax_\theta(\prod_i \frac{1}{\sqrt{2π}\epsilon}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2})) \\ &= argmax_\theta(-\frac{1}{2\delta^2}\sum_i||f(X_i)-Y_i||^2+\sum_iln(\delta\sqrt{2π})\\ & =argmin_\theta(\sum_i||f(X_i)-Y_i||^2) \\ \end{aligned}
θ∗=argmaxθ(i∏2πϵ1exp(−2δ2∣∣f(Xi)−Yi∣∣2))=argmaxθ(−2δ21i∑∣∣f(Xi)−Yi∣∣2+i∑ln(δ2π)=argminθ(i∑∣∣f(Xi)−Yi∣∣2)
从最大到最小,中间加了一步
L
(
θ
)
L(\theta)
L(θ) —
l
n
L
(
θ
)
lnL(\theta)
lnL(θ)。
这就是最小二乘法计算公式,最小(min)二乘(平方) = 使得平方和最小。
所谓最小二乘,其实也可以叫做最小平方和,其目的就是通过最小化误差的平方和,使得拟合对象无限接近目标对象。换句话说,最小二乘法可以用于对函数的拟合。
拉普拉斯分布
概率密度函数分布为:
f
(
x
∣
μ
,
b
)
=
1
2
b
e
x
p
(
−
∣
x
−
μ
∣
b
)
f(x|\mu,b) = \frac{1}{2b}exp(-\frac{|x-\mu|}{b})
f(x∣μ,b)=2b1exp(−b∣x−μ∣)
分布图像为:
可以看到拉普拉斯分布集中在
μ
\mu
μ附近,而且b越小,分布越集中。
拉普拉斯先验
P
(
θ
i
)
=
λ
2
e
x
p
(
−
λ
∣
θ
i
∣
)
P(\theta_i) = \frac{\lambda}{2}exp(-\lambda|\theta_i|)
P(θi)=2λexp(−λ∣θi∣)
其中
λ
\lambda
λ是控制参数
θ
\theta
θ集中情况的超采纳数,
λ
\lambda
λ越大,参数的分布就越集中在0附近。
在前面所说的极大似然估计事实上是假设了
θ
\theta
θ是均匀分布的,也就是
P
(
θ
)
=
c
o
n
s
t
a
n
t
P(\theta) = constant
P(θ)=constant,我们要最大化后验估计,就是: