相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(informationgain)。
KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。
定义:
对一个离散随机变量的两个概率分布P和Q来说,他们的KL散度定义为:D(P||Q)=∑P(i)lnP(i)/Q(i),对于连续的随机变量,定义类似。(来自百度百科)
如果知道概率密度p,用熵H(Entropy)就可以估计出图像的信息量,而与其解释无关。熵的概念是根源于热力学和统计学,而熵的信息论的形成是源于香农(Shannon),也成为信息熵(information entropy)。
信息熵的直觉理解与关联于给定概率分布的事件的不确定性大小有关。熵可作为“失调”的度量。当失调水平上升是,熵就增加而事件就越难预测。
假设一下离散随机变量X的可能结果(也称做状态)是X1,...,Xn,设P()是出项 (k=1,...,n)的概率,熵定义为
随机变量X的熵X所有可能的出现的如下乘积的累加和:出现的概率与概率的倒数值对数的乘积。 也称作出现的惊异(surprisal)。随机变量X的熵是其出现惊异的期望值。
这个公式中的对数的底决定所量度的熵的单位。如果底为2则熵的单位是位(bit(s))。
熵度量随机变量实现的不确定性。对香农来说,它充当了俘获了一条信息中所含的信息量这一概念的代表,而完全不同于该信息的那部分严格确定的和由其内在结构所能预测的含义。在图形处理上可以用熵来估计一幅图像的冗余性。