KL
散度是用于衡量分布之间的差异程度的,又称为相对熵、信息增益。
概率分布
P1
和
P2
的
KL
散度为:
KL(P1||P2)=Ex∼P1logP1P2=∫xP1(x)logP1P2dx.
可以认为是分布之间的“距离”,但是只可以在直观上这样理解,KL散度其实不满足距离的定义:首先它不是对称的;其次不满足三角不等式。
在高维空间中如果两个分布不重叠或者重叠部分可忽略,则KL散度和JS散度反映不了远近,而是一个常量。