- 熵: H(p)=−∑xp(x)logp(x)
- 交叉熵: H(p,q)=−∑xp(x)logq(x)
- 相对熵:
KL(p∥q)=−∑xp(x)logq(x)p(x)
- 相对熵(relative entropy)也叫 KL 散度(KL divergence);
- 用来度量两分布之间的不相似性(dissimilarity);
通过交叉熵的定义,连接三者:
H(p,q)===−∑xp(x)logq(x)−∑xp(x)logp(x)−∑xp(x)logq(x)p(x)H(p)+KL(p∥q)
1. 简森不等式与 KL散度
KL(p∥q)=−∫p(x)lnq(x)p(x)dx
因为 −lnx 是凸函数,所以满足,凸函数的简森不等式的性质:
f(E)≤E(f)
这里我们令 f(⋅)=−lnx ,则其是关于 x 的凸函数,因此:
也即 KL 散度恒大于等于 0;