一、前言:
信息论,对我而言,最早接触是在大二的专业课上。那个时候刚学完概率论,高数什么什么的,这是第一门需要将数学工具应用到实际分析之中的课,可想而知,我的成绩果然是飘过及格线。后面考研、读研期间,就再也没有接触过这方面的知识了。这一段时间的信息论对我而言,仅仅是一门课。
然而在一年前,由于工作方向的变化,我不得不从新将信息论捡了起来。过了几年再来看这门课,真是感慨良多。必须说得是,信息论作为一门后发的通信理论,不仅为之前的通信结论做出了牢固的理论支撑,还为未来通信技术的研究规划了方向。大三大四时候光顾着死记硬背什么MIMO容量,调制近似容量了,怎么来的完全不知道。自从把信息论捡了起来后,我仿佛又有那么一点理解了。
要问笔者为什么又要回去重新捡起信息论?不得不说这是一个亡羊补牢的结果。由于6G牵涉到很多新的通信方式,其中的一些区别于之前的射频通信。因此对于信号、信道的一些判断,如果继续沿用原来的结论将是错误的。我决定从新从信息论开始分析这些新的通信方式带来的不同。事实上,分析所得出的结果确实一定程度上辅助了我们对新关键技术的一些判断。
随着之前成果的逐步落实,现在想把总结的笔记分享出来。本笔记主要基于B站《信息论》课程视频来的,综合了多个视频。在此向国防科大和西安交大的老师们表示感谢。
未经授权,本笔记不得用于商业用途。
本笔记的内容概括如下:
二、目录:
绪论:Ø信息的定义;信息测度的基本概念;信息论的发展
信源模型及信息熵:Ø信源的数学模型;信息熵,联合熵与条件熵。
熵的基本性质:Ø非负性,确定性,对称性,扩展性,链式法则
信源的相关性及剩余度
信道模型与平均互信息:Ø信道模型、平均互信息(疑义度、性质)
信道容量的概念:Ø信道容量的定义、对称离散信道的信道容量、信道容量的一般计算方法
三、绪论
1、信息的定义
那么信息和消息的区别是什么?
简单来说就是:消息是信息的载体,信息是抽象的传输主体。
那么信号又是什么呢?
对于我们的通信系统来说,通信的实质是通过消息的传递,消除不确定性,获得信息。
2、信息测度
2.1、自信息
自信息表示事件出现的不确定性大小,或者说事件的发生概率有关,因此可以这么建模:
一般来说,不确定性越大,则携带信息应该越多。因此I(ai)这个函数应该是概率P(ai)的单调递减函数,且P(ai)=1时I(ai)=0,P(ai)=0时I(ai)=1。
此外,如果说一个事件出现的概率极小,那么他出现的难度接近无穷。那么I(x)如何建模才可以符合上述要求呢?
明显,如果使用对数函数,可以完美的合乎上述要求。因此,对一个事件ai发生的概率,可以得到该事件所携带的自信息为:
上述公式称为事件ai的自信息,也可以说是测度函数。
进一步考虑二维的情况。
当有两个随机事件时,先简单地假定它们独立,即 ,两个独立事件的自信息应该满足如下关系:
根据概率论可以知道,同时发生事件ai和aj的情况是一个联合事件,如果用不同的随机变量X和Y来表示,则可以简写成:
其中某个具体发生的事件x=a,y=b的自信息为:
上式也成为联合自信息,他表示a,b两个事件联合出现的一个不确定性。
(*自信息有2个隐藏的含义:当事件ai发生以前,自信息表示ai发生的不确定性;当ai发生以后,自信息表示ai所提供的信息量。)
上式可以简写为:
扩展到条件概率的情况,则有条件自信息:或
根据对数的底的不同,这些信息的单位也不同:以2为底时,单位表示bit,以e为底则为nat,以10为底则为hart。
给出一个例题,以加强记忆。
例3.1
答:(*注意:由于在红转箱中两次取球间是独立的,因此条件概率就等于每次取球的概率。)
A1:
A2:
A3:
A4:
3、信息论的发展
百度百科说的挺好,不再赘述了,总之就是香农yyds!
四、信源模型及信息熵
1、信源的数学模型
信息的获得是与消息出现的随机性是有很大关系的,信源的本质特征可以这么总结:信源是一个随机出现的消息的集合,可以用样本空间和分布律来表征信源特性。这和我们高中做的题一样,可以这么来写:
当然,概率空间还需要保证完备性:
1.1、信源的分类
根据随机事件,我们可以将信源分为以下几种:
(1)离散信源和连续信源
离散信源,比如说抛硬币,正反两面是可能发生的结果,它的分布律可以写为:
连续信源,比如说音频信号,音频信号在幅度上可以当做是连续的。
(2)无记忆信源(符号间彼此独立)和有记忆信源
(3)简单信源(信源输出的消息以单个符号给出)和复杂信源(一个消息由一串符号表示,例如电话号码)。
2、信息熵
如果有一个离散信源,其概率空间为:
则信源输出的一个符号ai,则其自信息量为:
由于信源输出的消息是随机出现的,所以自信息也相当于随机变量。那么如何表征整个信源呢?
通过概率论的知识,我们很容易联想到使用期望来表征整个信源的信息量,这个数学期望也称为信源的平均自信息量:
这个平均信息量也称为信源X的熵或信息熵。H(X)仅取决于X的分布,而非其具体值,因此信源熵是一个固定的值。
信息熵用于描述信源X的平均不确定性,表示平均每个信源符号所携带的信息量。
思考:自信息和信息熵的相同和不同点是什么呢?
相同点:都是描述不确定性的大小;不同点:个别事件与整个集合。
例4.1
计算下面3个信源的信源熵:
1、
2、
3、
A1:
A2:
A3:
例4.2
考虑一个经典的独立重复实验,一个袋子内100个球,70个红30个白。随机摸一个猜颜色(放回),求平均每次试验的信息量。
A:根据概率论的知识我们可以很快地写出这个实验的分布律或者说分布函数,如下:
如果我一共摸了N次试验,则红球的期望是0.7N次,白球是0.3N次。用n1和n2分别表示摸出红球和摸出白球发生的次数,则有
那么N次试验的总信息量为:
经过这个例子我们可以发现:熵值的大小表征了一个信源平均每输出一个消息能提供多大的信息量.
例4.3
有如下一个四进制离散无记忆信源,其分布函数如下:
若发出的消息为:2021 2013 0213 0012 0321 0110 3210 1002 1032 0112 2321 0,则求
(1)此消息中平均每个符号携带的信息量是多少?
(2)此信源中平均每个符号携带的信息量是多少?
A2:由于我们拿到了信源的分布函数,这使得回答第二个问题更为简单,根据前面对信息熵的定义,该信源的信息熵为:
需要注意的是,这里的平均其实没有意义了,因为信源的信息熵本身就是一个期望。
A1:求此消息中平均每个符号的信息量并不是求对应的信源的信息量,因为我们已经发出了具体的消息。这个问题实际上是求该消息出现时所携带的信息量,而平均在这里表示的应该是这一消息中每个符号上的平均。根据具体消息形式,该消息出现的概率为:
因此该消息中平均每个符号出现的信息量为:
3、联合熵与条件熵
这里我只给出最简单的定义,对于多个随机事件,定义联合自信息的平均值为联合熵。当然这需要知道多个随机事件的联合分布,如果它们互相独立那么会使这个问题大大简化。考虑两个随机事件X和Y,他们的联合熵为:
对于条件分布,也有对应的条件自信息,条件熵定义为条件自信息的平均值,即条件熵是用联合概率对条件自信息进行加权平均。
或
在具体事件Y=y的情况下,条件熵为:
例4.4
箱子中有100个球,40黑60白,从中取球且不放回,连续取2次,试求猜中第二个球颜色的难度。
A:明显,这是一个条件概率,我们需要求的难度指的就是条件熵。用事件X表示第一次取球的结果,用事件Y表示第二次取球的结果。那么我们有:
事件X的分布函数为:
事件Y的条件分布函数为:或
事件X的信息熵为:
X摸出黑球时,Y的条件熵为:
X摸出白球时,Y的条件熵为:
再求一次平均可以得Y的条件熵为:
例4.5
有一二维离散平稳信源,
且,
则信源X平均每符号输出的信息量为?
A:这是一个离散有记忆信源,平稳的意思是:随机序列的概率分布与时间起点无关,称为平稳序列。如果继续套用信源的信息熵不能反映信源的记忆性。对于有记忆信源,通常考虑条件熵,而联合熵常用于工程近似。
*(补充:什么是平稳随机过程?平稳随机过程是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程,即随机过程的统计特性不随时间的推移而变化,因此数学期望和方差这些参数不随时间和位置变化。平稳过程是一种重要的随机过程,其主要的统计特性不会随时间推移而改变。)
4、总结
什么时候用熵?
什么时候用联合熵?
什么时候用条件熵?
需要考察信源输出对象的形式,如果信源是无记忆信源,则用基本信源熵就可以,而且是单符号的;如果考察的是若干个集合组成的信源,则联合熵;如果考察的是一个有记忆信源,一般来说还是考察这个信源每输出一个符号能够提供的信息量,但是这个符号可能受到之前符号的影响。如果考察的是一个N维平稳信源,则怎么表示信源熵呢?则第N个符号的不确定性受到前面N-1个符号的影响,仍然需要找到联合概率和条件自信息。
五、熵的基本性质
1、非负性
2、确定性
虽然信源样本空间不同,但是有概率为1的情况,此时称为确知信源,确知信源熵为0.
3、对称性
熵值的大小仅与信源的整体属性,也可以说是总体结构有关。
是任意排列。
4、扩展性
极小概率事件对熵几乎无影响,熵描述的是整体属性。
5、熵的链式法则
有一个信源X和一个信源Y,我们把X和Y进行配对,可写出其联合分布。分别计算这几个信源的熵,我们可以发现下述结论,这个结论称为熵的强可加性。意义为,先考察一个事件X出现的不确定性,在考察另一个事件出现的不确定性。
当X和Y统计独立时,强可加性将退化为可加性。
把二维情况推广到N维,即可得到N维联合信源熵的链式法则。
6、熵的极值性
对于熵来说,总有以下不等式成立。
当且仅当时,信源具有最大熵,这称之为熵的极值定理。
证明:需要用到引理:若x>0,则 lnx ≤ x-1,当且仅当x=1时等号成立。这里省略证明。假设有一个二元信源X为:
则有:
做出其函数图像如下:
观察可以发现当p=0.5时,信源具有最大熵。 此外熵具有上凸性,随着自变量的变化,它是一个上凸函数。
由此我们可以得到最大离散熵定理:
信源中各事件出现概率趋于均匀时,信源的平均不确定性最大。这是数据压缩的理论依据之一。
熵表示的是平均每个符号可以提供的信息量有多大,则信源在等概分布时每个符号提供的信息量是最大的。为了提高通信的传输效率,信源输出每个符号的信息量应该尽量大,即输出的熵最大。数据压缩怎么做呢?做压缩的目的其实就是我要压缩信源输出的这个冗余,最后的效果就是我尽量用少的符号数来传输信息,其实就是想办法使得压缩以后信源熵尽量大。压缩编码的做法就是通过调整符号间的概率分布使得符号变成等概的。
7、熵的独立界
熵的独立界指的是统计相关的变量,知道统计相关的变量,则可以减少不确定性。统计平均意义上的条件可以减少不确定性,但是针对某一具体的时间Y,则独立界不一定成立。
定理1:条件熵不大于无条件熵,即,当且仅当X和Y独立时取等号。
定理2:对于平稳序列,条件熵随N(N是条件数)的增加是非递增的,即
即条件作用使熵减小。
定理3:设服从
,则
,当且仅当
独立时取等号。
例5.1


接收侧Y收到的信号为0,1,2。
求以下信息熵及概率:
六、信源的相关性及冗余度
1、剩余度(冗余度)



信源实际熵与理想熵
相差越大,信源的冗余度就越大,信源的效率也越低。
例6.1
英文由26个字母组成a~z,还得加个空格,因此一共有27个符号,如果他们等概出现,则携带的信息量有多大?
A:
因此对于英文源来说,理想情况下,如果这27个符号等概,那么平均每个符号则可以携带4.76bit的信息量。
但实际中,等概使用字符无法正常表达意思,因此在实际中每个英文字母使用的概况是不一样的。其中空格键最大,接下来是e等等等,已经有人对英文中个字母出现的概率进行了统计,则得到每个英文字母携带的信息量为:4.03Bit。
又因为实际中,英文符号间存在一定的关联性,如果考虑两个符号间的关联,那么这个时候平均每个符号所携带的信息量就降为3.3bit。
如果进一步考察3个符号之间具有关联性,为3.1bit,和实际中的信源熵1.4bit,可以进一步得到冗余度为0.71,这说明英文信源利用率很低,因此我们看paper时主要看摘要和关键字,这个就是核心。
例6.2
这是熵的递增型,我们先考察事件落在某个范围内的情况,再考察该范围内的情况。
然而在实际中,每个类中汉字等概出现又是不合理的,此时剩余度会增加。此外汉字的使用彼此之间也有相关性。
关于信源剩余度的思考:1、为提高信息传输效率,总希望减少剩余度;例如压缩:中华人民共和国压缩成“中国”,提高每一个符号承载信息的能力,这就是信源压缩编码。但是自然信源中使用理想熵说话的话,是顿挫的,因此在实际中我们增加剩余度主要是帮助我们理解,因此剩余度的存在可以增加可懂性、可靠性。为提高信息传输的可靠性,需要一定的剩余度,这就是信道编码。
2、数据压缩的基本途径
需要注意到的是:
1、实际中信源相关性很大,实际中需要减弱它;
2、当信源不均匀分布时,存在冗余,需要调整信源的概率分布,使其均匀化。
七、信道模型与平均互信息
研究信道的目的是研究信道能传输的最大信息量,即信道的最大传输能力。
1、信道模型的三要素及表述方式
信道模型的三要素包括输入、输出和信道的转移概率。一个简单的信道模型可以画成下面的框图:
三要素都是以统计规律来进行描述的,因此我们在实际中用概率空间来描述信源的统计特性。其中样本空间描述这个集合所有可能出现的消息,概率用函数分布函数或密度函数表示。以信道的转移概率来描述由输入到输出的这种转变情况。
信道模型的表示方法包括:公式法、图示法、矩阵法(转移概率构成的矩阵,同一行对应同一个输入,同一列对应同一个输出)
例7.1
有一个二元对称信道BSC,其框图如下:
其中,信源发出的消息经过编码以后,经过二进制调制器送上传输介质进行传输,收端进行了解调解码等一系列处理。
如果说我们把从信源编码器的输出到信源译码器的输入这一段看成广义信道,则它的信道的输入会有哪几种状态的信号呢?只可能有0和1。经过解调的输出也应该被还原成0和1两种状态。一般来说对于二进制调制系统的转移概率,都会呈现一种对称性,称为二元对称信道。
请写出几种BSC的表示方式:
表示1:
表示2:
表示3:
例7.2
有一个二元删除信道BEC,假设信道输入仅有0和1时,负电平表示0,正电平表示1,经过信道传输后,接收端需要对每个电平幅度进行判决,某一个时刻的取值接近于0,则不好判断,当然可以采取硬判决。但是如果我们知道出错,但不知道是0错成1还是1错成0,我们可以在接收端删去它(或者添加删除符号),然后接收端再将删除后的信号与信号库中比对进行还原。这称为删除信道。记删除符号为:“?”,则其信道框图为:
请用两种方式表述该信道。
A:
这里指的是纯二元删除信道。
BSC和BEC的相同点:都是单符号;输出仅与当前时刻的输入有关,它与其他时刻的输出和输入是无关的。因此是离散无记忆信道。对于一般的单符号离散无记忆信道模型都可以这么简化,用一维随机变量表示输入和输出,用一维条件概率表示转移概率。
表示1:
表示2:
2、信道疑义度
以单符号离散无记忆信道作为研究对象,假设有如下一个信道:
我们可以得到以下信息:
1、信道输入:
2、若信道无干扰,例如y=f(x),则接受的平均信息为H(X)。那么存在干扰呢?如果存在干扰,我们对输入是什么是不确定的,但是我们已经知道的信道输出,即H(X|Y)。收到bj后关于ai的不确定性,就是它的条件自信息。
3、用ai的条件概率做加权平均后我们得到的是一个已知接收bj时关于ai的平均不确定性。
再对bj做统计平均,有:
这是综合考察了所有符号不确定性的情况,即信道疑义度,它就是条件熵,描述的是已知输出描述输入的不确定性。它可以表示信道中损失的信息量。
因此,定义信道疑义度为:
3、平均互信息
3.1、平均互信息的概念
我们获得的信息等价于我们消除的不确定性,这两项相减的表示信道中传输每一个消息的时候平均让接收端获得的信息量。I(X;Y)称之为平均互信息,也称信息传输率。定义为
含义:平均从Y获得的关于X的信息量,又称信道的信息传输率R。
例7.3
A:令X表示抽到硬币的情况,X=0表示抽到好的,X=1表示抽到坏的;令Y表示出现数字次数的情况,可以画出其概率转移图:
由此可以计算出:
3.2、平均互信息的性质
1、非负性
互信息是可正可负的,互信息大于0表示通信正常,等于0则表示通信中断(信息量全部损失在信道中了,称为全损信道,此时输入和输出是统计独立的,可用于保密通信,这也是密码学的起点),小于0表示通信受干扰。
例如在二元对称信道中,令转移概率都为1/2,此时为全损信道。
2、极值性
信息处理的一般规律,通过传输获得的信息量不大于提供的信息量。上界对应着无损信道。
平均互信息的取值大小是由信源分布和信道转移概率的分布决定的,通常都是固定一个研究另一个。
3、对称性
4、特殊信道的总结
信道名称 | 信道特征 | 信息传输情况 |
全损信道 | | |
无损信道 | | |
无噪信道 | | |
5、凸状性
例7.4
分析二元信源通过BSC信道的互信息特性,信道和信源的信息如下:
可以发现噪声熵只与转移概率有关系,与信源熵是无关的。但是互信息不仅受到转移概率的影响,还受到信源的影响。
BSC信道的互信息就是两个二元信源熵相减的结果。
八、信道容量
平均互信息中不仅包含了信源的信息,还包含了信道的转移概率的信息,因此不能用平均互信息来单纯地评价信道的传输情况(信道的好坏)。我们可以发现,在同一个信源分布的情况下,平均互信息的最大值仅受到信道转移概率的影响,因此我们可以用平均互信息的最大值来描述信道的最大传信能力,即信道容量。
1、信道容量的定义
信道容量是给定的信道的最大的信息传输率
例8.1
求BSC信道的容量。
A:
BSC的信道和信源模型如下:
可以发现,此时信道容量仅与信道转移概率p有关。此时输入分布必须是最优分布。但是最优分布一定是唯一的吗?
例8.2
分别计算下面两个信道的信道容量及最佳输入分布。
A:
可以发现第一个信道为有损信道和无噪信道,因此第一个信道的互信息为:
互信息有两种表示方式,由于这是个无噪信道,因此H(Y|X)=0,信道容量取决于输出熵的最大值,由于输出熵是二符号的,当输出的两个符号等概的时候,熵最大,信道容量最大。
因此我们要做的就是调整输入分布,使得输出分布等概。
第二个信道是一个无损有噪信道,回顾一下,如何判断有损还是无损?如果说你站在输出端,看输入端,你是可以非常确定输入是什么的的话,说明输出端的判决是确定的。因此有H(X|Y)=0。因此这个问题变为求信源熵的最大值,因此当输入X是等概分布的时候,有信道容量为:
2、小结
3、性质
1、平均互信息的非负性:
2、平均互信息的极值性:
例8.3
有一二元删除信道,计算其信道容量。
A:
二元删除信道的转移图和信道转移矩阵为:
这个信道是个局部对称信道,对其进行线性变化,可以发现前面是完全对称的,这一类信道称为准对称信道。
当信道给定时,q的值是确定的,也就是说信宿熵(输出熵)将随着输入的变化而变化。
最后可以发现,问题会被转化为求解信源熵的问题。由于H(W)=log2,因此信道容量仅跟1-q有关,因此信道容量只是一个跟信道有关的测度值,跟输入的概率分布是没有关系的。但是最大值的寻找需要找最大分布,这是一个必经的过程。
4、对称信道
二元对称信道可以表示如下:
信道矩阵的对称性体现在,每一行取的元素都是一样的,同时每一列的元素也是一样的,此时称该信道为对称信道。需要输入符号对称,也需要输出符号对称。
4.1对称信道的性质
4.2对称信道的信道容量
1、平均互信息
对于均匀信道,可以发现
此外,由于当输入等概时,输出也是等概的,因此最佳输入分布为1/r。
5、一般离散信道的信道容量
如何求解信道容量呢?寻找最优分布来找到最大值。最优分布是一个优化问题。对于一个一般化的离散信道,其框图的信道容量的求解可以表示如下:
通常对于上述优化问题,使用拉格朗日乘子法,构造的拉格朗日函数如下:
当P(ai)>0时,有
将输入分布带入,可以得到信道容量为:log(e)加上某一个待定系数λ。
根据这个例子我们可以得到这么一个结论:当输入分布处于最佳分布的时候,或者说当这个系统的信道容量达到了最大能力的时候,可以发现由输出端观测到的关于每一个输入符号的信息量都是一样的。
(1)I(X;Y)=C 对所有xi其Pi≠0
(2)I(X;Y)≤C 对所有xi其Pi=0
对于概率不为0的输入符号,我们从输出输出中获得的关于输入符号的信息量大小都是一样的,这个值实际就是信道容量。对于那些出现概率为0的,即基本上不出现的输入符号,则我们由整个信道的输出中获得的关于概率为0的一些信源符号的信息量是小于刚才求出来的信道容量的。
一般情况下,通过计算
可以得到
令,则等式右边为: