本文参照知乎文章: 原文链接
信息量
假设一件事情A,它发生的概率为p(A),则其具有的信息量为-log(p(A)),一件事情发生的概率越小,其具有的信息量越大。
熵
熵就是信息量的期望,如公式1.
H ( X ) = − ∑ i = 1 n p ( x i ) log ( p ( x i ) ) (1) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)\tag{1} H(X)=−i=1∑np(xi)log(p(xi))(1)
当只有两种可能时即二项分布时,可写为公式2的形式。
H ( X ) = − ∑ i = 1 n p ( x i ) log ( p ( x i ) ) = − p ( x ) log ( p ( x ) ) − ( 1 − p ( x ) ) log ( 1 − p ( x ) ) (2) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)=-p(x) \log (p(x))-(1-p(x)) \log (1-p(x))\tag{2} H(X)=−i=1∑np(xi)log(p(xi))=−p(x)log(p(x))−(1−p(x))log(1−p(x))(2)
KL散度与交叉熵
KL散度公式如公式3,注意其不是距离,不满足距离的性质。
不对称也不满足三角不等式。
D K L ( p ∥ q ) = ∑ i = 1 n p ( x i ) log ( p ( x i ) q ( x i ) ) (3) D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)\tag{3} DKL(p∥q)=i=1∑