交叉熵,相对熵, 最大似然之间的关系

最新推荐文章于 2022-02-16 18:39:27 发布

luixiao1220

最新推荐文章于 2022-02-16 18:39:27 发布

阅读量379

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/luixiao1220/article/details/105669328

版权

算法专栏收录该内容

33 篇文章 2 订阅

订阅专栏

UTF8gbsn

相对熵

离散型, 其中 $P, Q$ 来自于同一个概率空间 $\mathcal{X}$
$D_{\mathrm{KL}}(P \| Q)=\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{P(x)}{Q(x)}\right)$
$D_{\mathrm{KL}}(P \| Q)=-\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{Q(x)}{P(x)}\right)$
其中 $Q (x) = 0$ 时意味着 $P (x) = 0$ ,也就是说 $\lim _{x \rightarrow 0^{+}} x \log (x)=0$
连续型
$D_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \log \left(\frac{p(x)}{q(x)}\right) d x$

基本例子

$\begin{array}{|c|c|c|c|}\hline x & 0 & 1 & 2 \\ \hline \text { Distribution } P(x) & 0.36 & 0.48 & 0.16 \\ \hline \text { Distribution } Q(x) & 0.333 & 0.333 & 0.333 \\ \hline\end{array}$

$\begin{aligned} D_{\mathrm{KL}}(P \| Q) &=\sum_{x \in \mathcal{X}} P(x) \ln \left(\frac{P(x)}{Q(x)}\right) \\ &=0.36 \ln \left(\frac{0.36}{0.333}\right)+0.48 \ln \left(\frac{0.48}{0.333}\right)+0.16 \ln \left(\frac{0.16}{0.333}\right) \\ &=0.0852996 \end{aligned}$

$\begin{aligned} D_{\mathrm{KL}}(Q \| P) &=\sum_{x \in \mathcal{X}} Q(x) \ln \left(\frac{Q(x)}{P(x)}\right) \\ &=0.333 \ln \left(\frac{0.333}{0.36}\right)+0.333 \ln \left(\frac{0.333}{0.48}\right)+0.333 \ln \left(\frac{0.333}{0.16}\right) \\ &=0.097455 \end{aligned}$

解释

总的来说相对熵的解释还是比较直观的.可以从信息论,机器学习, 编码理论,
贝叶斯推断的角度来解释.

信息论和机器学习, 使用Q来代替P时,信息的变化量.
编码理论, 使用Q来代替P时,需要增加的bit位数.
贝叶斯推断, 当人的认知从先验概率Q转移到后验概率后信息的变化量.
通常来说我们把P代表真是的分布, Q为一个近似的分布.

交叉熵

$q)=-\sum_{x \in \mathcal{X}} p(x) \log q(x)$

交叉熵和相对熵之间的存在一定的关系

$q)=H(p)+D_{\mathrm{KL}}(p \| q)$

解释

那么我们可以看到,实际上来说我们假设 $p$ 是真实的分布,而 $q$ 是我们训练出来的预测分布.那么求交叉熵的最小值,就等效与求相对熵的最小值.如此一来就代表说,
p,q十分接近.
另外交叉熵最小值实际上和最大似然估计最大值是等效的.首先,我们来看看极大似然估计的式子
$arg\quad max_{\theta}\sum_{i=1}^{n}log(q(x_i|\theta))$
也就是最小化
$arg\quad max_{\theta}\sum_{i=1}^{n}-log(q(x_i|\theta))$

由于真实分布 $p(x)\geqslant 0$ 所以,
$arg\quad min_{\theta}\sum_{i=1}^{n}-log(q(x_i|\theta)) \equiv arg\quad min_{\theta}\sum_{i=1}^{n}-p(x_i)log(q(x_i|\theta))=arg \quad min_{\theta}H(p,q)$

luixiao1220

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
交叉熵,相对熵, 最大似然之间的关系

UTF8gbsn相对熵离散型, 其中P,QP,QP,Q来自于同一个概率空间X\mathcal{X}XDKL(P∥Q)=∑x∈XP(x)log⁡(P(x)Q(x))D_{\mathrm{KL}}(P \| Q)=\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{P(x)}{Q(x)}\right)DKL(P∥Q)=x∈X∑P(x)log(Q(...
复制链接

扫一扫