Intro
学MLE时遇到这么一句话
A nice feature of this view is that we can now also interpret the
regularization term R(W) in the full loss function as coming from a
Gaussian prior over the weight matrix W, where instead of MLE we are
performing the Maximum a posteriori (MAP) estimation.
翻译过来就是:当在MLE中W是高斯先验条件时,并且加上一个正则项,我们可以看成是MAP。查了一下资料,才知道这是MLE和MAP的转换关系。
两大学派的争论
- 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
- 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
先验与后验、似然
比如我们研究一个神经网络,其网络参数 θ \theta θ是我们要求的,虽然网络参数是多维的,但对单个参数成立的话,对多维参数也成立。并且,我们对 θ \theta θ的估计在网络输出值 X = X 1 , X 2 , . . X n X={X_1,X_2,..X_n} X=X1,X2,..Xn的基础上进行。
- p ( θ ) p(\theta) p(θ)就是先验概率,即对网络的预先判断。比如我们迁移学习时,就能将被迁移的网络参数当成先验。
- p ( θ ∣ X ) p(\theta|X) p(θ∣X)就是后验概率,即 X X X产生后对 θ \theta θ的估计
-
p
(
X
∣
θ
)
p(X|\theta)
p(X∣θ)似然函数,类似于概率密度函数。
注意,无论先验、后验、似然,都是关于 θ \theta θ的函数
Maximum Likelihood Estimation
即最大似然估计。
θ
^
M
L
E
=
a
r
g
m
a
x
P
(
X
∣
θ
)
=
−
a
r
g
m
i
n
P
(
X
∣
θ
)
=
−
a
r
g
m
i
n
l
o
g
P
(
X
∣
θ
)
=
−
a
r
g
m
i
n
∑
i
l
o
g
P
(
x
i
∣
θ
)
\begin{aligned} \widehat{\theta}_{MLE} &=argmaxP(X|\theta)\\ &=-argminP(X|\theta)\\ &=-argmin\space logP(X|\theta)\\ &=-argmin \sum_i logP(x_i|\theta) \end{aligned}
θ
MLE=argmaxP(X∣θ)=−argminP(X∣θ)=−argmin logP(X∣θ)=−argmini∑logP(xi∣θ)
Maximum A Posteriori
即最大后验,是根据Bayesian公式推出
θ
^
M
A
P
=
a
r
g
m
a
x
P
(
θ
∣
X
)
=
a
r
g
m
a
x
l
o
g
P
(
θ
∣
X
)
=
a
r
g
m
a
x
l
o
g
(
X
∣
θ
)
+
l
o
g
P
(
θ
)
−
l
o
g
P
(
X
)
B
a
y
e
s
i
a
n
f
o
r
m
u
l
a
t
i
o
n
=
−
a
r
g
m
i
n
l
o
g
(
X
∣
θ
)
+
l
o
g
P
(
θ
)
=
θ
^
M
L
E
−
a
r
g
m
i
n
l
o
g
P
(
θ
)
=
θ
^
M
L
E
−
a
r
g
m
i
n
∣
∣
θ
∣
∣
2
W
h
e
n
θ
∼
N
(
μ
,
σ
)
\begin{aligned} \widehat{\theta}_{MAP} &=argmax P(\theta|X)\\ &=argmax \space logP(\theta|X)\\ &=argmax\space log(X|\theta)+logP(\theta)-logP(X)\space Bayesian formulation\\ &=-argmin\space log(X|\theta)+logP(\theta)\\ &=\widehat{\theta}_{MLE}-argmin\space logP(\theta)\\ &=\widehat{\theta}_{MLE}-argmin\space ||\theta||_2 \space When\space \theta \sim N(\mu,\sigma)\\ \end{aligned}
θ
MAP=argmaxP(θ∣X)=argmax logP(θ∣X)=argmax log(X∣θ)+logP(θ)−logP(X) Bayesianformulation=−argmin log(X∣θ)+logP(θ)=θ
MLE−argmin logP(θ)=θ
MLE−argmin ∣∣θ∣∣2 When θ∼N(μ,σ)
总结:
- MAP运用了先验条件,而MlE没有。
- 在MAP中使用一个高斯分布的先验等价于在MLE中采用L2的regularization。
- 当样本数量趋向无穷大时,先验的作用越来越小,MAP和MLE近似等价。
Reference
[1] https://zhuanlan.zhihu.com/p/32480810
[2] http://cs231n.github.io/linear-classify/