前言
注意两个名词的区别:
相对熵:Kullback–Leibler divergence
交叉熵:cross entropy
KL距离的几个用途:
① 衡量两个概率分布的差异。
② 衡量利用概率分布Q 拟合概率分布P 时的能量损耗,也就是说拟合以后丢失了多少的信息,可以参考前面曲线拟合的思想。
③ 对①的另一种说法,就是衡量两个概率分布的相似度,在运动捕捉里面可以衡量未添加标签的运动与已添加标签的运动,进而进行运动的分类。
百度百科解释的为什么KL距离不准确,不满足距离的概念:
①KL散度不对称,即P到Q的距离,不等于Q到P的距离
②KL散度不满足三角距离公式,两边之和大于第三边,两边之差小于第三边。
相对熵数学定义
KL散度的值始终大于0,并且当且仅当两分布相同时,KL散度等于0.
从另一个角度也就可以发现,当P(x)和Q(x) 的相似度越高,KL距离越小。
有一个实例,可以参考:http://www.cnblogs.com/finallyliuyu/archive/2010/03/12/1684015.html