我们先来看看熵的定义:
H(x)=-
∑
x
P
(
x
)
l
o
g
P
(
x
)
\displaystyle\sum_{x} P(x)logP(x)
x∑P(x)logP(x)
p(x)为随机变量x的概率分布密度,熵反应了系统的有序化程度,系统越是有序熵值越小,反之越大
K-L散度(相对熵)
表示方法:KL(p||q)
表示的是使用P的编码方法和使用Q的编码方法的长度差异。或者这样理解:描述两个概率分布P和Q差异的一种方法。
其公式为
性质:
1.KL散度的值大于等于0
因为它不具有对称性,即D(P||Q) ≠ D(Q||P)
证明方法:
吉布斯不等式http://blog.csdn.net/acdreamers/article/details/44657745
JS散度
表达式
性质
1.具有对称性JS(P||Q)=JS(Q||P)
2.值域为[0,1],0为相同,1为相反
交叉熵
其实就是D(p||q)-H§
交叉熵常用于神经网络的损失函数,因为其计算比相对熵简单,但同时能准确反映两者的差异所以选择了交叉熵