KL散度(KL divergence)
相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。
KL散度是两个概率分布P和Q差别的非对称性的度量,用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。
【定义】
对于离散随机变量,其概率分布P和Q的KL散度可按下式定义为:
等价于
即按概率P求得的P和Q的对数商的期望值。KL散度仅当概率P和Q各自总和均为1,且对于任何皆满足及时,才有定义。
对于连续随机变量,其概率分布P和Q可按积分方式定义为:
其中和分别表示分布和的密度。
【特性】
◎ 相对熵的值为非负数:
由吉布斯不等式可知,当且仅当时为零。
◎ 尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距离。因为KL散度不具有对称性:从分布P到Q的距离通常并不等于从Q到P的距离。
【补充 --吉布斯不等式】
吉布斯不等式说明:
若 ,且,则有:,等号成立当且仅当
证明:
吉布斯不等式等价于:
已知,等号成立当且仅当。则有