交叉熵,相对熵, 最大似然之间的关系

UTF8gbsn

相对熵

  • 离散型, 其中 P , Q P,Q P,Q来自于同一个概率空间 X \mathcal{X} X
    D K L ( P ∥ Q ) = ∑ x ∈ X P ( x ) log ⁡ ( P ( x ) Q ( x ) ) D_{\mathrm{KL}}(P \| Q)=\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{P(x)}{Q(x)}\right) DKL(PQ)=xXP(x)log(Q(x)P(x))
    D K L ( P ∥ Q ) = − ∑ x ∈ X P ( x ) log ⁡ ( Q ( x ) P ( x ) ) D_{\mathrm{KL}}(P \| Q)=-\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{Q(x)}{P(x)}\right) DKL(PQ)=xXP(x)log(P(x)Q(x))
    其中 Q ( x ) = 0 Q(x)=0 Q(x)=0时意味着 P ( x ) = 0 P(x)=0 P(x)=0,也就是说 lim ⁡ x → 0 + x log ⁡ ( x ) = 0 \lim _{x \rightarrow 0^{+}} x \log (x)=0 limx0+xlog(x)=0

  • 连续型
    D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) log ⁡ ( p ( x ) q ( x ) ) d x D_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \log \left(\frac{p(x)}{q(x)}\right) d x DKL(PQ)=p(x)log(q(x)p(x))dx

基本例子

x 0 1 2  Distribution  P ( x ) 0.36 0.48 0.16  Distribution  Q ( x ) 0.333 0.333 0.333 \begin{array}{|c|c|c|c|}\hline x & 0 & 1 & 2 \\ \hline \text { Distribution } P(x) & 0.36 & 0.48 & 0.16 \\ \hline \text { Distribution } Q(x) & 0.333 & 0.333 & 0.333 \\ \hline\end{array} x Distribution P(x) Distribution Q(x)00.360.33310.480.33320.160.333

D K L ( P ∥ Q ) = ∑ x ∈ X P ( x ) ln ⁡ ( P ( x ) Q ( x ) ) = 0.36 ln ⁡ ( 0.36 0.333 ) + 0.48 ln ⁡ ( 0.48 0.333 ) + 0.16 ln ⁡ ( 0.16 0.333 ) = 0.0852996 \begin{aligned} D_{\mathrm{KL}}(P \| Q) &=\sum_{x \in \mathcal{X}} P(x) \ln \left(\frac{P(x)}{Q(x)}\right) \\ &=0.36 \ln \left(\frac{0.36}{0.333}\right)+0.48 \ln \left(\frac{0.48}{0.333}\right)+0.16 \ln \left(\frac{0.16}{0.333}\right) \\ &=0.0852996 \end{aligned} DKL(PQ)=xXP(x)ln(Q(x)P(x))=0.36ln(0.3330.36)+0.48ln(0.3330.48)+0.16ln(0.3330.16)=0.0852996

D K L ( Q ∥ P ) = ∑ x ∈ X Q ( x ) ln ⁡ ( Q ( x ) P ( x ) ) = 0.333 ln ⁡ ( 0.333 0.36 ) + 0.333 ln ⁡ ( 0.333 0.48 ) + 0.333 ln ⁡ ( 0.333 0.16 ) = 0.097455 \begin{aligned} D_{\mathrm{KL}}(Q \| P) &=\sum_{x \in \mathcal{X}} Q(x) \ln \left(\frac{Q(x)}{P(x)}\right) \\ &=0.333 \ln \left(\frac{0.333}{0.36}\right)+0.333 \ln \left(\frac{0.333}{0.48}\right)+0.333 \ln \left(\frac{0.333}{0.16}\right) \\ &=0.097455 \end{aligned} DKL(QP)=xXQ(x)ln(P(x)Q(x))=0.333ln(0.360.333)+0.333ln(0.480.333)+0.333ln(0.160.333)=0.097455

解释

总的来说相对熵的解释还是比较直观的.可以从信息论,机器学习, 编码理论,
贝叶斯推断的角度来解释.

  1. 信息论和机器学习, 使用Q来代替P时,信息的变化量.

  2. 编码理论, 使用Q来代替P时,需要增加的bit位数.

  3. 贝叶斯推断, 当人的认知从先验概率Q转移到后验概率后信息的变化量.
    通常来说我们把P代表真是的分布, Q为一个近似的分布.

交叉熵

H ( p , q ) = − ∑ x ∈ X p ( x ) log ⁡ q ( x ) H(p, q)=-\sum_{x \in \mathcal{X}} p(x) \log q(x) H(p,q)=xXp(x)logq(x)

交叉熵和相对熵之间的存在一定的关系

H ( p , q ) = H ( p ) + D K L ( p ∥ q ) H(p, q)=H(p)+D_{\mathrm{KL}}(p \| q) H(p,q)=H(p)+DKL(pq)

解释

  1. 那么我们可以看到,实际上来说我们假设 p p p是真实的分布,而 q q q是我们训练出来的预测分布.那么求交叉熵的最小值,就等效与求相对熵的最小值.如此一来就代表说,
    p,q十分接近.

  2. 另外交叉熵最小值实际上和最大似然估计最大值是等效的.首先,我们来看看极大似然估计的式子
    a r g m a x θ ∑ i = 1 n l o g ( q ( x i ∣ θ ) ) arg\quad max_{\theta}\sum_{i=1}^{n}log(q(x_i|\theta)) argmaxθi=1nlog(q(xiθ))
    也就是最小化
    a r g m a x θ ∑ i = 1 n − l o g ( q ( x i ∣ θ ) ) arg\quad max_{\theta}\sum_{i=1}^{n}-log(q(x_i|\theta)) argmaxθi=1nlog(q(xiθ))

    由于真实分布 p ( x ) ⩾ 0 p(x)\geqslant 0 p(x)0所以,
    a r g m i n θ ∑ i = 1 n − l o g ( q ( x i ∣ θ ) ) ≡ a r g m i n θ ∑ i = 1 n − p ( x i ) l o g ( q ( x i ∣ θ ) ) = a r g m i n θ H ( p , q ) arg\quad min_{\theta}\sum_{i=1}^{n}-log(q(x_i|\theta)) \equiv arg\quad min_{\theta}\sum_{i=1}^{n}-p(x_i)log(q(x_i|\theta))=arg \quad min_{\theta}H(p,q) argminθi=1nlog(q(xiθ))argminθi=1np(xi)log(q(xiθ))=argminθH(p,q)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值