相对熵可以衡量两个分布之间的不相似性,即 P 和 Q 两个分布越相似,相对熵越小,否则越大。
相对熵的公式
显然,当 P 和 Q 的分布完全相同时,log 里就是 1,所以每项都是 0,相对熵也为 0,印证了开头的那句话。
关于相对熵有个不等式:
下面给出两种证明方法:
1. 由于在
时,有
当且仅当
时等号成立,因此有
所以有
2. 根据 Jensen 不等式(如果对 Jensen 不了解,可以等我下一篇文章或者上网搜一下),由于
是一个严格的 concave 函数,所以有
所以有
另外如果我们把相对熵公式展开,会得到
我们就得到了 Gibbis 不等式:
即从相对熵的公式我们可以看出:相对熵 = 交叉熵 - 熵,又因为其大于等于 0,故有交叉熵 ≥ 熵
相对熵又叫 KL 散度,或信息增益,也称信息散度。