UTF8gbsn
相对熵
-
离散型, 其中 P , Q P,Q P,Q来自于同一个概率空间 X \mathcal{X} X
D K L ( P ∥ Q ) = ∑ x ∈ X P ( x ) log ( P ( x ) Q ( x ) ) D_{\mathrm{KL}}(P \| Q)=\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{P(x)}{Q(x)}\right) DKL(P∥Q)=x∈X∑P(x)log(Q(x)P(x))
D K L ( P ∥ Q ) = − ∑ x ∈ X P ( x ) log ( Q ( x ) P ( x ) ) D_{\mathrm{KL}}(P \| Q)=-\sum_{x \in \mathcal{X}} P(x) \log \left(\frac{Q(x)}{P(x)}\right) DKL(P∥Q)=−x∈X∑P(x)log(P(x)Q(x))
其中 Q ( x ) = 0 Q(x)=0 Q(x)=0时意味着 P ( x ) = 0 P(x)=0 P(x)=0,也就是说 lim x → 0 + x log ( x ) = 0 \lim _{x \rightarrow 0^{+}} x \log (x)=0 limx→0+xlog(x)=0 -
连续型
D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) log ( p ( x ) q ( x ) ) d x D_{\mathrm{KL}}(P \| Q)=\int_{-\infty}^{\infty} p(x) \log \left(\frac{p(x)}{q(x)}\right) d x DKL(P∥Q)=∫−∞∞p(x)log(q(x)p(x))dx
基本例子
x 0 1 2 Distribution P ( x ) 0.36 0.48 0.16 Distribution Q ( x ) 0.333 0.333 0.333 \begin{array}{|c|c|c|c|}\hline x & 0 & 1 & 2 \\ \hline \text { Distribution } P(x) & 0.36 & 0.48 & 0.16 \\ \hline \text { Distribution } Q(x) & 0.333 & 0.333 & 0.333 \\ \hline\end{array} x Distribution P(x) Distribution Q(x)00.360.33310.480.33320.160.333
D K L ( P ∥ Q ) = ∑ x ∈ X P ( x ) ln ( P ( x ) Q ( x ) ) = 0.36 ln ( 0.36 0.333 ) + 0.48 ln ( 0.48 0.333 ) + 0.16 ln ( 0.16 0.333 ) = 0.0852996 \begin{aligned} D_{\mathrm{KL}}(P \| Q) &=\sum_{x \in \mathcal{X}} P(x) \ln \left(\frac{P(x)}{Q(x)}\right) \\ &=0.36 \ln \left(\frac{0.36}{0.333}\right)+0.48 \ln \left(\frac{0.48}{0.333}\right)+0.16 \ln \left(\frac{0.16}{0.333}\right) \\ &=0.0852996 \end{aligned} DKL(P∥Q)=x∈X∑P(x)ln(Q(x)P(x))=0.36ln(0.3330.36)+0.48ln(0.3330.48)+0.16ln(0.3330.16)=0.0852996
D K L ( Q ∥ P ) = ∑ x ∈ X Q ( x ) ln ( Q ( x ) P ( x ) ) = 0.333 ln ( 0.333 0.36 ) + 0.333 ln ( 0.333 0.48 ) + 0.333 ln ( 0.333 0.16 ) = 0.097455 \begin{aligned} D_{\mathrm{KL}}(Q \| P) &=\sum_{x \in \mathcal{X}} Q(x) \ln \left(\frac{Q(x)}{P(x)}\right) \\ &=0.333 \ln \left(\frac{0.333}{0.36}\right)+0.333 \ln \left(\frac{0.333}{0.48}\right)+0.333 \ln \left(\frac{0.333}{0.16}\right) \\ &=0.097455 \end{aligned} DKL(Q∥P)=x∈X∑Q(x)ln(P(x)Q(x))=0.333ln(0.360.333)+0.333ln(0.480.333)+0.333ln(0.160.333)=0.097455
解释
总的来说相对熵的解释还是比较直观的.可以从信息论,机器学习, 编码理论,
贝叶斯推断的角度来解释.
-
信息论和机器学习, 使用Q来代替P时,信息的变化量.
-
编码理论, 使用Q来代替P时,需要增加的bit位数.
-
贝叶斯推断, 当人的认知从先验概率Q转移到后验概率后信息的变化量.
通常来说我们把P代表真是的分布, Q为一个近似的分布.
交叉熵
H ( p , q ) = − ∑ x ∈ X p ( x ) log q ( x ) H(p, q)=-\sum_{x \in \mathcal{X}} p(x) \log q(x) H(p,q)=−x∈X∑p(x)logq(x)
交叉熵和相对熵之间的存在一定的关系
H ( p , q ) = H ( p ) + D K L ( p ∥ q ) H(p, q)=H(p)+D_{\mathrm{KL}}(p \| q) H(p,q)=H(p)+DKL(p∥q)
解释
-
那么我们可以看到,实际上来说我们假设 p p p是真实的分布,而 q q q是我们训练出来的预测分布.那么求交叉熵的最小值,就等效与求相对熵的最小值.如此一来就代表说,
p,q十分接近. -
另外交叉熵最小值实际上和最大似然估计最大值是等效的.首先,我们来看看极大似然估计的式子
a r g m a x θ ∑ i = 1 n l o g ( q ( x i ∣ θ ) ) arg\quad max_{\theta}\sum_{i=1}^{n}log(q(x_i|\theta)) argmaxθi=1∑nlog(q(xi∣θ))
也就是最小化
a r g m a x θ ∑ i = 1 n − l o g ( q ( x i ∣ θ ) ) arg\quad max_{\theta}\sum_{i=1}^{n}-log(q(x_i|\theta)) argmaxθi=1∑n−log(q(xi∣θ))由于真实分布 p ( x ) ⩾ 0 p(x)\geqslant 0 p(x)⩾0所以,
a r g m i n θ ∑ i = 1 n − l o g ( q ( x i ∣ θ ) ) ≡ a r g m i n θ ∑ i = 1 n − p ( x i ) l o g ( q ( x i ∣ θ ) ) = a r g m i n θ H ( p , q ) arg\quad min_{\theta}\sum_{i=1}^{n}-log(q(x_i|\theta)) \equiv arg\quad min_{\theta}\sum_{i=1}^{n}-p(x_i)log(q(x_i|\theta))=arg \quad min_{\theta}H(p,q) argminθi=1∑n−log(q(xi∣θ))≡argminθi=1∑n−p(xi)log(q(xi∣θ))=argminθH(p,q)