- MLE (Maximum Likelihood Estimation 最大似然估计) 频率学派
- MAP (Maximum A Posteriori 最大厚颜估计) 贝叶斯学派
各派观点:
- 频率学派认为世界确定,有一个本体其真值是不变的,我们的目标是要找到该真值或真值所在的范围
- 贝叶斯学派认为世界是不确定的,人们对世界有一个预判,通过观测数据对预判做调整,我们的目标是要找到最优的描述这个世界的概率分布
对事物建模时用 θ \theta θ表示模型的参数,解决问题的本质即是求解该值
- MLE
假设数据
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn是独立同分布的一组抽样,那么MLE对
θ
\theta
θ 的估计方法可以如下推导:
θ
^
M
L
E
\hat{\theta}_{MLE}
θ^MLE
=arg max
P
(
X
,
θ
)
P(X, \theta)
P(X,θ)
=arg max
P
(
x
1
,
θ
)
P
(
x
2
,
θ
)
.
.
.
P
(
x
n
,
θ
)
P(x_1, \theta)P(x_2, \theta)...P(x_n, \theta)
P(x1,θ)P(x2,θ)...P(xn,θ)
=arg max
∑
i
=
1
n
l
o
g
P
(
x
i
)
,
θ
\sum_{i=1}^{n}logP(x_i),\theta
∑i=1nlogP(xi),θ
=arg min -
∑
i
=
1
n
l
o
g
P
(
x
i
)
,
θ
\sum_{i=1}^{n}logP(x_i),\theta
∑i=1nlogP(xi),θ
最后一行即Negative Log Likelihood(NLL)
深度学习做分类任务时所用的 cross entropy loss 本质也是MLE
- MAP
假设数据
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn是独立同分布的一组抽样,则MAP对
θ
\theta
θ 的估计方法可以如下推导:
θ
^
M
A
P
\hat{\theta}_{MAP}
θ^MAP
=arg max
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X)
=arg min -
l
o
g
P
(
θ
∣
X
)
log P(\theta|X)
logP(θ∣X)
=arg min -
l
o
g
P
(
X
∣
θ
)
log P(X|\theta)
logP(X∣θ)-
l
o
g
P
(
θ
)
log P(\theta)
logP(θ)+
l
o
g
P
(
X
)
log P(X)
logP(X)
=arg min -
l
o
g
P
(
X
∣
θ
)
log P(X|\theta)
logP(X∣θ)-
l
o
g
P
(
θ
)
log P(\theta)
logP(θ)
(不考虑最后一项因为其与
θ
\theta
θ无关)
-
l
o
g
P
(
X
∣
θ
)
log P(X|\theta)
logP(X∣θ)即NLL,所以MLE 和 MAP优化的不同在于先验项-
l
o
g
P
(
θ
)
log P(\theta)
logP(θ) 。假设先验是高斯分布即:
P
(
θ
)
P(\theta)
P(θ) =constant
×
e
−
θ
2
2
σ
2
\times e^{- \frac{\theta^2}{2\sigma^2}}
×e−2σ2θ2
则-
l
o
g
P
(
θ
)
log P(\theta)
logP(θ) =constant +
e
θ
2
2
σ
2
e^{\frac{\theta^2}{2\sigma^2}}
e2σ2θ2
在MAP中使用高斯分布的先验等价于在MLE中采用L2正则
ref:https://zhuanlan.zhihu.com/p/32480810