信息度量与KL距离

原创 2013年12月09日 10:20:21


信息度量

信息论中,把信息大小解释为其不确定度。如果一个事件必然发生,那么他没有不确定度,也就不包含信息。即信息=不确定度。

借用数学之美中的一个例子:

马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。 

如果我们再考虑不同球队获胜的不同比例,如巴西比例高,中国比例低些,那么结果又会不同。

 

互信息,联合熵,条件熵的相关定义

这样一幅图:


两个随机变量,X,Y。

H(X)表示其信息量,也就是自信息

H(X|Y)表示已知Y的情况下X的信息量,同理,H(Y|X)也是。

H(X,Y)表示X,Y的联合熵,也就是这两个变量联合表示的信息量。

H(X;Y),也就是I(X;Y),也就是互信息,指的是两个变量重复的部分。

H(X;Y)=H(X,Y)- H(X|Y)- H(Y|X),这个等式从上图也能形象地看出。

 


KL距离

KL距离用来度量两个分布的相似度。


物理意义:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布 Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。

另一种理解就是,已知Q的分布,用Q分布近似估计P,P的不确定度减少了多少。

我们用D(P||Q)表示KL距离,计算公式如下:

也就是用一个分布来表征另一个分布的额外不确定度。

P(X)=Q(X),他们的KL距离为0;否则,差异越大,距离越大。

上述KL距离物理意义的表述,在许多运用中都有很好地体现。


事例:

南京的天气为随机变量D,某个南京的同学的穿着W。我想通过W,了解D。也就是用P(D/W)来近似P(D),现在定量地计算我们通过穿着,了解了多少关于天气的信息。

也就是用P(D/W)来代替P(D)编码,减少了多少不确定度?

用KL距离来表征,就是:D(P(D/W)||P(D))。

接着,如果已知一个穿着wi,可以选择最大KL距离D(P(dj/wi)||P(dj))的dj,也就是最可能的天气。

这就是KL距离的物理意义在实际中的一些运用。


互信息与KL距离

插入一个概念:独立与相关。

概率中的相关概念指的是线性相关,而是否独立,则取决于线性以及非线性的关系。

区别:

X,Y的互信息I(X,Y)表征其独立程度,KL距离表征其线性相关性。如下图:

 

联系:

X,Y的互信息也就是P(X,Y)与P(X)P(Y)的KL距离。

 

下面这幅图描绘他们之间的联系:

 

还有下面这个公式:


这个等式描绘了上面举的天气和穿着的例子,用P(Y|X)来代替P(Y),不确定度减少了多少?其关于X求和后就是X,Y的互信息。

上式也是许多运用中常见的等式:

 


我们可以通过互信息与KL距离的这种关系,构造一定的互信息,从而处理一些实际问题。

 

皮尔森相关系数与KL距离:

联系:皮尔森相关系数衡量X,Y的线性相关性。这与KL距离类似。

区别:

比较明显的区别就是,KL距离是不对等的度量距离,而皮尔森相关系数是对等的度量距离。

 

实际运用:

如上面天气与穿着的例子,以及KL距离与互信息的相互关系。一般运用这些知识,在信息检索,自然语言处理方面都有相关运用。

KL距离(相对熵)

转:http://wenku.baidu.com/link?url=9AvwW3syYBPAnTtHa7C6IPNaR71Ax1L2ebfdEMQhGkjlp_-VLrqYgCoPilvWyihqSl...
  • buaalei
  • buaalei
  • 2015年06月16日 11:38
  • 2770

计算KL距离的几个例子

首先生成两个随机分布,并且生成
  • xlrtx
  • xlrtx
  • 2014年05月11日 03:32
  • 1315

KL距离,Kullback-Leibler Divergence 浅谈KL散度

KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分...
  • scw1023
  • scw1023
  • 2017年03月01日 16:03
  • 2546

KLR、KL15、KL50、KL30、KL31

解释如下:不得不说德国的汽车制造影响了整个世界的汽车工业,虽然只是一个符号 KL is the abbreviation for 'klemme' which is the German ter...
  • minyuanxiani
  • minyuanxiani
  • 2016年08月31日 15:57
  • 6683

android kl文件

android kl(key layout)文件是一个映射文件,是标准linux与anroid的键值映射文件,kl文件可以有很多个,但是它有一个使用优先级:/system/usr/keylayout/...
  • mcgrady_tracy
  • mcgrady_tracy
  • 2015年08月08日 16:28
  • 7319

KL散度

KL散度,又称KL距离。 详情请见:http://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence 下面是转载内容: =====...
  • caohao2008
  • caohao2008
  • 2011年10月27日 15:27
  • 15923

KL距离的计算与含义(转)

引自——http://hi.baidu.com/kangwp/blog/item/5ab8fcd806d297b4cc116615.html KL距离,是Kullback-Leibler差异(Kul...
  • yuhushangwei
  • yuhushangwei
  • 2015年09月18日 16:30
  • 1156

信息度量与KL距离

【转】:http://m.blog.csdn.net/blog/ice110956/17120461 信息度量 信息论中,把信息大小解释为其不确定度。如果一个事件必然发生,那么他没有不确定...
  • li4850729
  • li4850729
  • 2015年10月26日 15:29
  • 1896

【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)

首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,之前非常著名的那篇LSTM讲解的文章也是他写的。这篇文章详细讲解了信息...
  • haolexiao
  • haolexiao
  • 2017年04月12日 15:20
  • 3448

Kullback–Leibler divergence(相对熵,KL距离,KL散度)

KL距离
  • zb1165048017
  • zb1165048017
  • 2015年10月06日 21:56
  • 7964
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:信息度量与KL距离
举报原因:
原因补充:

(最多只允许输入30个字)