前言
关于极大似然估计和交叉熵我就不介绍了,有兴趣的可以看我其他的博客,我这里只讲他们的联系。
公式
现有一个真实的分布
P
(
x
)
P(x)
P(x),现在为了减小模型的概率分布
Q
(
x
;
θ
)
Q(x;\theta)
Q(x;θ) 与真实分布P之间的差异,使用最大似然:
θ
M
L
E
=
a
r
g
max
∏
i
=
1
m
Q
(
x
i
;
θ
)
=
a
r
g
max
∑
i
=
1
m
log
Q
(
x
i
;
θ
)
≈
a
r
g
max
E
x
∼
P
(
x
)
[
log
Q
(
x
;
θ
)
]
=
−
a
r
g
min
E
x
∼
P
(
x
)
[
log
Q
(
x
;
θ
)
]
\begin{aligned} \theta_{MLE} &= arg\max \prod_{i=1}^m Q(x^i; \theta) \\\\ &= arg \max \sum_{i=1}^m \log Q(x^i; \theta) \\\\ &\approx arg\max E_{x \sim P(x)}[\log Q(x;\theta)] \\\\ &= -arg \min E_{x \sim P(x)}[\log Q(x; \theta)] \end{aligned}
θMLE=argmaxi=1∏mQ(xi;θ)=argmaxi=1∑mlogQ(xi;θ)≈argmaxEx∼P(x)[logQ(x;θ)]=−argminEx∼P(x)[logQ(x;θ)]
可以看出,最小化交叉熵和最大似然函数结果是一样的。