相对熵可以衡量两个分布之间的不相似性,即 P 和 Q 两个分布越相似,相对熵越小,否则越大。
相对熵的公式是
D K L ( P ∣ ∣ Q ) = ∑ i p i log p i q i D_{KL}(\mathrm{P} || \mathrm{Q}) = \sum_{i} p_i \log{\frac{p_i}{q_i}} DKL(P∣∣Q)=i∑pilogqipi
显然,当 P 和 Q 的分布完全相同时,log 里就是 1,所以每项都是 0,相对熵也为 0,印证了开头的那句话。
关于相对熵有个不等式:
D K L ( P ∣ ∣ Q ) ≥ 0 D_{KL}(\mathrm{P} || \mathrm{Q}) \geq 0 DKL(P∣∣Q)≥0
下面给出两种证明方法:
-
由于在 x ∈ ( 0 , 1 ] x \in (0, 1] x∈(0,1] 时,有 ln ( x ) ≤ x − 1 \ln(x) \leq x-1 ln(x)≤x−1 当且仅当 x = 1 x=1 x=1 时等号成立,因此有
− D K L ( P ∣ ∣ Q ) = ∑ i p i log q i p i ≤ ∑ i p i ( q i p i − 1 ) = ∑ i ( q i − p i ) = ∑ i q i − ∑ i p i = 0 -D_{KL}(\mathrm{P}||\mathrm{Q}) = \sum_i p_i \log{\frac{q_i}{p_i}} \leq \sum_i p_i (\frac{q_i}{p_i} - 1) = \sum_i (q_i - p_i) = \sum_i q_i - \sum_i p_i = 0 −DKL(P∣∣Q)=i∑pilogpiqi≤i∑pi(piqi−1)=i∑(qi−pi)=i∑qi−i∑pi=0
所以有 D K L ( P ∣ ∣ Q ) ≥ 0 D_{KL}(P || Q) \geq 0 DKL(P∣∣Q)≥0 -
根据 Jensen 不等式,由于 log ( x ) \log(x) log(x) 是一个严格的 concave 函数,所以有
− D K L ( P ∣ ∣ Q ) = ∑ i p i log q i p i ≤ log ∑ i p i q i p i = log ∑ i q i = 0 -D_{KL}(\mathrm{P}||\mathrm{Q}) = \sum_i p_i \log{\frac{q_i}{p_i}} \leq \log \sum_i p_i \frac{q_i}{p_i} = \log \sum_i q_i = 0 −DKL(P∣∣Q)=i∑pilogpiqi≤logi∑pipiqi=logi∑qi=0
所以有 D K L ( P ∣ ∣ Q ) ≥ 0 D_{KL}(P || Q) \geq 0 DKL(P∣∣Q)≥0
如果我们把相对熵公式展开,会得到
D K L ( P ∣ ∣ Q ) = ∑ i p i log p i − ∑ i p i log q i = H ( P , Q ) − H ( P ) ≥ 0 D_{KL}(\mathrm{P} || \mathrm{Q}) = \sum_i p_i \log{p_i} - \sum_i p_i \log{q_i} = \mathbf{H} (\mathrm{P}, \mathrm{Q}) - \mathbf{H} (\mathrm{P}) \geq 0 DKL(P∣∣Q)=i∑pilogpi−i∑pilogqi=H(P,Q)−H(P)≥0
我们就得到了 Gibbis 不等式:
− ∑ i p i log q i ≥ − ∑ i p i log p i -\sum_i p_i \log{q_i} \geq -\sum_i p_i \log{p_i} −i∑pilogqi≥−i∑pilogpi
即因为相对熵 = 交叉熵 - 熵且其大于等于 0,故有交叉熵 ≥ 熵
相对熵又叫 KL 散度,或信息增益,也称信息散度。