信息熵相关

最新推荐文章于 2021-06-29 00:03:00 发布

weixin_30625691

最新推荐文章于 2021-06-29 00:03:00 发布

阅读量176

点赞数

原文链接：http://www.cnblogs.com/SshunWang/p/11116407.html

版权

失踪人口回归了！！！

最近一直在忙别的，忘记了当初要维护博客的初衷，希望以后能把维护博客作为日常。

最近一直在做图像配准方面的工作，那么就围绕这个点展开一些内容吧。

**********************************************************************

1.信息量

　　通常我们把事件包含信息的多少称之为信息量。在计算机世界中，一切事物从根本上是二进制表达的，因此我们可以用存储某个事件所需要多少比特的空间来作为信息多少的度量方式。比如一个事件中包含了m种消息，所需要的存储位数为$log_{2}m$。

　　接下来我们讨论下随机变量或者说随机事件包含的信息的多少。提到随机事件，那肯定涉及到这个事件发生的概率$p(x)$，那么随机事件包含信息量的多少和它发生的概率之间是否有联系呢？通常我们认为小概率事件发生包含的信息更多。为什么这么说？举个?。明天地球依然围绕太阳做公转，是一个必然事件（这里我们认为意外发生的概率极低，灾难始终慢我一步！），那么这个事件给我们带来的信息可谓少之又少。而如果说震中杯major比赛VG越过秘密和液体夺冠，那包含的信息就多得多了。那么随机事件A发生所带来的信息量我们可以用$log_{2}\frac{1}{p(A)}$来表示，其中$p(A)$表示事件A发生的概率。

2.香农熵

　　上文中我们简单说明了信息多少的度量方法，我们可以轻易的得出“十二支旗鼓相当的队伍比赛比两支势均力敌的队伍比赛所包含的信息多得多”的结论，是因为后者比前者有更多的可能发生的结果，即更多的不确定性。通常不确定性高的东西就需要提供更多的信息来预测，比如预测明天的天气我们需要知道现在的气温、风向、湿度等信息，所以事物的不定度就是所要传递需要的信息量。

　　热力学中有熵的概念，是用来描述混乱度的，实际上随着温度的提高，粒子运动的随机性提高，即粒子下一个状态的不确定度提高了。因此我们可以把熵的概念引入信息论中，熵是一个统计的概念，它表示粒子整体的混乱程度（随机程度），所以我们可以用信息熵来表示事件集合的平均信息量大小。接着上面的例子继续说，十二支队伍都有可能夺冠，我们把每支队伍夺冠的结果都对应为一个事件，每一个事件包含的信息量为$log_{2}\frac{1}{p(x|x = A,B,C......)}$，我们可以对这些事件的信息量进行加权平均，作为该事件集合的平均信息量，这就是信息熵。设U{A,B,C...}表示事件的集合，p(x|x = A,B,C......)表示每个事件发生的概率，信息熵H(U)表示为：$$H(U) = -\sum p(x)log_{2}p(x), x = A,B,C......$$

　　注意这里我把概率的负一次方的对数的表示替换为概率的对数取负（因为更好写...），这种表示方式是由香农（C. E. Shannon）提出，因此我们一般也称作香农熵。

3.互信息

　　说了这么半天，不管是信息量还是信息熵似乎都是通信方面的知识啊，和我最近做的图像配准有什么关系呢，这就可以引出图像配准中的一个图像相似度测度——图像互信息了。

　　值得注意的是，这里我只说明图像间互信息，互信息的应用范围很广泛，比如文本间的互信息，这就涉及自然语言领域了，感兴趣的同学可以看看相关内容。

　　假设我们有两幅图像，A和B，我们可以把图像看作随机变量的信号源头，每一个像素都是独立的随机变量，那么根据香农熵的定义，有：$$H(A) = -\sum p(x)log_{2}p(x) x\in A$$

　　如果此时我们知道图像A和B有一定的关联，那么通过A我们可以一定程度上确定B，同样我们可以表示已知A的基础上对未知的B信息量的测度，这就引入了条件概率。概率学上用$p(B|A)$表示A已发生的条件下，B发生的概率。那么通过图像A我们能获得的关于B的信息量为：$$H(B|A) = -\sum p(y|x)log_2{2}p(y|x) x\in A, y\in B$$

　　如果已知A时对B的信息量测度结果很大，说明我们知道A的情况下，B的不确定性依然很大，相反，如果测度结果很小，说明我们知道A的情况下，可以很大程度上确定B，对于图像而言，这表示两幅图像匹配的很好。然而仅仅用条件概率作为信息熵的测度不满足对称性（虽然它是非负的），即$H(A|B)|!=H(B|A)$。那我们换个思路，既然我们知道已知A的前提下，B的不确定性，而且我们也知道B所包含的信息量，那么$H(B) - H(B|A)$意味着着A和B的共有信息量。此时根据香农熵的定义我们发现$$H(B|A) = H(A,B) - H(A)$$

　　上式根据条件概率和联合概率的关系可以很轻易得到，这里不做推导。最终我们发现共有信息量可以表示为$H(A) + H(B) - H(A,B)$，它是一种非负的、对称的测度，因此很适合用于图像相似性的度量方式。在图像配尊过程中，我们可以最大化两幅图像的互信息即可。

4.为什么用互信息

　　我们通过上面的讨论引出了图像相似度的测度之一——互信息，那么为什么选择互信息作为测度呢？首先我们发现互信息是基于统计的测度，也就是说它只与像素对应的概率有关，和像素值的具体大小无关，比如我们把图像A的像素值都扩大一倍，它的信息量以及和图像B的互信息是不变的，这种性质可以很好的用于多模态图像间的配准，因为它只追求两幅图像在统计上的关联性。

5.互信息的缺点

　　互信息作为图像间相似度的测度也有其不足，首先它并没有考虑图像的结构信息，实际上图像的边缘、角点等都是很好的用于匹配的特征，它并没有考虑到这些结构特征。另外，互信息的计算方式表明互信息大小和图像间重合程度有很大关系，当两幅图像本身重合程度小时，互信息作为相似度测度误差较大，此外互信息。

6.在互信息基础上的改进

　　互信息作为一种很好的多模态图像相似度测度，再其基础上产生了许多改进方法，我打算另写一个随笔来简介以下相关方法（主要是现在太晚了！！！）。

转载于:https://www.cnblogs.com/SshunWang/p/11116407.html

weixin_30625691

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息熵相关

失踪人口回归了！！！最近一直在忙别的，忘记了当初要维护博客的初衷，希望以后能把维护博客作为日常。最近一直在做图像配准方面的工作，那么就围绕这个点展开一些内容吧。**********************************************************************1.信息量　　通常我们把事件包含信息的多少称之为信息量。在计算机世界中，一切事物...
复制链接

扫一扫