K-L散度(相对熵)的理解

信息量II
消息中有意义的内容成为信息。信息量函数:I=lnpiI=-lnp_i其中,pip_i是事件xix_i的发生概率。

信息熵HH
它是用来对信息度量,描述信息的多于少的问题。公式为H=i=1Np(xi)log p(xi)H=-\sum_{i=1}^{N}p(x_i)\cdot log\ p(x_i)log对数的底数没有明确,可以是2、e、或10,一般为2。如果我们使用以2为底的对数计算H值的话,可以把这个值看作是编码信息所需要的最少二进制位个数bits。注意:这个公式和上面信息量的公式,再和求期望的公式联系起来。这个信息熵的公式实质就是信息量的期望。
通过计算信息熵可以判断数据编码方式的优劣。

K-L散度
K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。

K-L散度的公式是通过修改熵HH所得到的。
设p为观察得到的概率分布,q为另一分布来近似p,则p、q的K-L散度为:DKL(pq)=i=1Np(xi)(log p(xi)log q(xi))D_{KL}(p||q)=\sum_{i=1}^{N}p(x_i)\cdot(log\ p(x_i)-log\ q(x_i))从上面公式可以知道,K-L散度其实是数据的原始分布p和近似分布q之间的对数差值的期望。

这样我们就可以将K-L散度作为

发布了51 篇原创文章 · 获赞 59 · 访问量 11万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览