定义:两个概率质量函数为
p(x)
和
q(x)
之间的相对熵或KL距离定义为
D(p||q)=∑x∈χp(x)logp(x)q(x)
理解
如果已知随机变量的真实分布为
p
,可以构造平均描述长度为
H(p)
的码,但是,如果使用针对分布
q
的编码,那么平均意义上就需要
∑x∈χp(x)log1q(x)
(记作
H(p||q)
)比特来描述这个随机变量。那么可以这样定义
D(p||h)
D(p||q)=H(p||q)−H(p)=∑x∈χp(x)log1q(x)−∑p(x)log1p(x)=∑x∈χp(x)logp(x)q(x)
总结就是,使用由 q 构造的编码将会在平均意义上比最优编码(由真实分布 p 构造的编码)长 D(p||q) 比特。