信息论基础
概述
信息的基本概念
概念:信息是认识主体(人、生物、机器)所感受的和所表达的事物运动的状态和运动状态变化的方式。
特征:
信息有许多与物质、能量相同的特征,例如信息可以产生、消失、携带、处理和量度。
信息也有与物质、能量不同的特征,例如,信息可以共享,可以无限制地复制等
信息的三个基本层次
-
语法(Syntactic)信息
是事物运动的状态和变化方式的外在形式,不涉及状态含义和效用。包括:中文、英文、密文。
通信信息归属于语法信息,其中也有三个层次:信号、消息、信息
消息是信息的携带者,信息包含于消息之中。
信号是消息的载体,消息是信号的具体内容。
-
语义(Semantic)信息
是事物运动的状态和变化方式的含义。
-
语用(Pragmatic)信息
是事物运动状态及其状态改变方式的效用。
**研究语义信息要以语法信息为基础,研究语用信息要以语义信息和语法信息为基础。**三者之间,语法信息是最简单、最基本的层次,语用信息则是最复杂、最实用的层次。
香农信息论或经典信息论所研究的信息是语法信息中的概率信息。
香农还把信源看成具有输出的随机过程。
通信系统模型
通信的性能指标
传输的有效性(快)-数据压缩
有效性用频谱利用率来衡量。
提高有效性的措施:采用信源编码以压缩码率,采用频谱利用率高的调制减小传输带宽传输的可靠性(好)-数据纠错
可靠性用传输错误率来衡量。
提高可靠性的措施:采用信道编码以降低错误率
传输的安全(安全)-数据加密
安全性可通过信息的加密强度来衡量。
提高安全性的措施:采用强度高的加密和伪装技术
香农信息论解决了前两项技术的理论问题
提高有效性可通过信源编码来实现
提高可靠性通过信道编码来实现
模型
-
信源
功能:直接产生消息或消息序列
按输出符号的取值分类——离散信源、连续信源
按输出符号之间的依赖关系分类——无记忆信源、有记忆信源 -
编码器
功能是将消息变成适合于信道传输的信号
编码器包括:
信源编码器(source encoder)信道编码器(channel encoder)
调制器(modulator)
功能:将编码器的输出符号变成适合信道传输的
目的:提高传输效率 -
信道
- 狭义信道
- 广义信道
- 无噪声信道和有噪声信道
- 加性噪声和乘性噪声
- AWGN信道
-
译码器
译码器的功能:从信号中恢复消息
- 信宿
功能:接收信息,包括人或设备
离散信息的度量
自信息
-
信息量、不确定度与时间概率
- 事件概率越小,事件不确定性越大,信息量越大;
- 发生概率为1的必然事件,无不确定性
- 发生概率为0的不可能事件,不确定性无限大
- 独立事件发生包含的信息量为各事件信息量的和
某事件发生所含有的信息量应是该事件发生先验概率的函数
I ( x i ) = f [ p ( x i ) ] I(x_i)=f[p(x_i)] I(xi)=f[p(xi)]
-
自信息(随机变量,不是随机事件)
事件集合X中事件 x = a i x=a_i x=ai的自信息
—— I x ( a i ) = − l o g P x ( a i ) I_x(a_i)=-logP_x(a_i) Ix(ai)=−logPx(ai)简记为 I ( x ) = l o g p ( x ) 或 I ( a i ) = − l o g p i I(x)=logp(x)或I(a_i)=-logp_i I(x)=logp(x)或I(ai)=−logpi
-
自信息非负
-
0 < p i < 1 0<p_i<1 0<pi<1
-
对数的底数常见为:2、e、10
-
自信息包括
- 事件发生前,事件发生的不确定性
- 事件发生后,事件包含的信息量
-
例题:
1、箱中有90个红球,10个白球。现从箱中随机地取出一个球。求:
(1)事件“取出一个红球”的不确定性;
(2)事件“取出一个白球”所提供的信息量;
(3)事件“取出一个红球”与“取出一个白球”的发生,哪个更难猜测?解:
(1)设a,表示“取出一个红球”的事件,则 p ( a i ) = 0.9 p(a_i)= 0.9 p(ai)=0.9故事件a,的不确定性为: I ( a 1 ) = − l o g 0.9 = 0.152 I(a_1)=-log 0.9 = 0.152 I(a1)=−log0.9=0.152 比特
(2)设a表示“取出一个白球”的事件,则 p ( a 2 ) = 0.1 p(a_2)=0.1 p(a2)=0.1故事件a2所提供的信息量为: I ( a 2 ) = − l o g 0.1 = 3.323 I(a_2)=-log 0.1= 3.323 I(a2)=−log0.1=3.323 比特
(3)因为 I ( a 2 ) > I ( a 1 ) I(a_2)>I(a_1) I(a2)>I(a1),所以事件“取出一个白球”的发生更难猜测。
-
-
联合自信息
事件集合XY 中的事件 x = a i x=a_i x=ai, y = b i y=b_i y=bi,的自信息:
$ I_{XY}(a_i,b_j)=-logP_{XY}(a_i,b_j) 简 记 简记 简记I(xy)=-logp(xy)$
-
条件同上
-
例题:
2、箱中球不变,现从箱中随机取出两个球。求:
(1)事件“两个球中有红、白球各一个”的不确定性;
(2)事件“两个球都是白球”所提供的信息量;
(3)事件“两个球都是白球”和“两个球都是红球”的发生,哪个事件更难猜测?
-
-
条件自信息
事件 y = b j y=b_j y=bj给定,事件 x = a i x=a_i x=ai的自信息:
I x y ( a i ∣ b j ) = − l o g P x ∣ y ( a i ∣ b j ) 简 记 I ( x ∣ y ) = − l o g p ( x ∣ y ) I_{xy}(a_i|bj)=-logP_{x|y}(a_i|b_j)简记I(x|y)=-logp(x|y) Ixy(ai∣bj)=−logPx∣y(ai∣bj)简记I(x∣y)=−logp(x∣y)
-
p ( x ∣ y ) p(x|y) p(x∣y)要满足非负和归一化条件,条件自信息为正
-
y = b j 给 定 , x = a i y=b_j给定,x=a_i y=bj给定,x=ai,发生前→事件x发生的不确定性
-
y = b j 给 定 , x = a i , y=b_j给定,x=a_i, y=bj给定,x=ai,发生后→事件x包含的信息量
-
I ( x y ) = I ( x ) + I ( y ∣ x ) = I ( y ) + I ( x ∣ y ) I(xy)=I(x)+I(y|x)=I(y)+I(x|y) I(xy)=I(x)+I(y∣x)=I(y)+I(x∣y),自信息、条件自信息、联合自信息的关系
-
例题:
3、箱中球不变,现从箱中先拿出一球,再拿出一球求:
(1)事件“在第一个球是红球条件下,第二个球是白球”的不确定性;
(2)事件“在第一个球是红球条件下,第二个球是红球”所提供的信息量。解:
4、有8x8=64个方格,甲将一棋子放入方格中,让乙猜:
1)将方格按顺序编号,让乙猜顺序号的困难程度为何?
2)将方格按行和列编号,当甲告诉乙方格的行号后,让乙猜列顺序号的困难程度为何?解:
注意
自信息的单位,bit
困难程度和自信息对标
-
互信息
概念:设两个事件集合 X X X 和 Y Y Y, 其中事件 x ∈ X x \in X x∈X, 事件 y ∈ Y ∘ y \in Y_{\circ} y∈Y∘ 由于空间或时间的限制, 有时我们 不能直接观察 x x x, 只有通过观察 y y y 获取关于 x x x 的信息,称为互信息。
离散随机事件 x = a i x=a_{i} x=ai 和 y = b j y=b_{j} y=bj 之间的互信息 ( x ∈ X , y ∈ Y ) (x \in X, y \in Y) (x∈X,y∈Y) 定义为
I X ; Y ( a i ; b j ) = log P X ∣ Y ( a i ∣ b j ) P X ( a i ) I_{X ; Y}\left(a_{i} ; b_{j}\right)=\log \frac{P_{X \mid Y}\left(a_{\mathrm{i}} \mid b_{j}\right)}{P_{X}\left(a_{\mathrm{i}}\right)} IX;Y(ai;bj)=logPX(ai)PX∣Y(ai∣bj)
简记为(注意没有负号)
I ( x ; y ) = log p ( x ∣ y ) p ( x ) = log p ( y ∣ x ) p ( y ) = log p ( x y ) p ( x ) p ( y ) I(x ; y)=\log \frac{p(x \mid y)}{p(x)}=\log \frac{p(y \mid x)}{p(y)}=\log \frac{p(x y)}{p(x) p(y)} I(x;y)=logp(x)p(x∣y)=logp(y)p(y∣x)=logp(x)p(y)p(xy)
通过计算可得
I ( x ; y ) = I ( x ) − I ( x ∣ y ) I(x ; y)=I(x)-I(x \mid y) I(x;y)=I(x)−I(x∣y)
- 互信息的单位与自信息单位相同。
- x x x 与 y y y 之间的互信息等于 x x x 的自信息减去在 y y y 条件下 x x x 的自信息。 I ( x ) I(x) I(x) 表示 x x x 的不确 定性, I ( x ∣ y ) I(x \mid y) I(x∣y) 表示在 y y y 发生条件下 x x x 的不确定性, 因此 I ( x ; y ) I(x ; y) I(x;y) 表示当 y y y 发生后 x x x 不确定性的 变化。两个不确定度之差, 是不确定度消除的部分, 也就是由 y y y 发生所得到的关于 x x x 的信 息量。
- 互信息反映了两个随机事件 x x x 与 y y y 之间的统计关联程度。在通信系统中, 互信息的物理意义是, 信道输出端接收到某消息(或消息序列) y y y 后, 获得的关于输入端某消息(或消 息序列) x x x 的信息量。
-
互信息的性质
-
互易性
-
当事件x,y统计独立时,互信息为0,即I(x;y)=0互信息
-
可正可负
-
任何两事件之间的互信息不可能大于其中任一事件的自信息
-
-
例题
5、
-
条件互信息(似乎不太重要)
设联合事件集 X Y Z X Y Z XYZ, 在给定 z ∈ Z z \in Z z∈Z 条件下, x ( ∈ X ) x(\in X) x(∈X) 与 y ( ∈ Y ) y(\in Y) y(∈Y) 之间的条件互信息定义为
I ( x ; y ∣ z ) = log p ( x ∣ y z ) p ( x ∣ z ) I(x ; y \mid z)=\log \frac{p(x \mid y z)}{p(x \mid z)} I(x;y∣z)=logp(x∣z)p(x∣yz)
除条件外, 条件互信息的含义与互信息的含义与性质都相同。错题
1、
2、两个筛子,求问两个筛子的点数都为6的自信息是多少: l o g 2 36 = 2 l o g 2 6 log_236=2log_26 log236=2log26
注意对数计算的坑,乘号是加号,乘方是倍数。
3、错题
信息熵的基本概念
信息熵
离散随机变量 X X X 的熵定义为自信息的平均值
H ( X ) = E p ( x ) [ I ( x ) ] = − ∑ x p ( x ) log p ( x ) H(X)=E_{p(x)}[I(x)]=-\sum_{x} p(x) \log p(x) H(X)=Ep(x)[I(x)]=−x∑p(x)logp(x)
X X X 的概率分布可写成矢量形式, 称为概率矢量, 记为 p = ( p 1 , p 2 , ⋯ , p n ) , X p=\left(p_{1}, p_{2}, \cdots, p_{n}\right), X p=(p1,p2,⋯,pn),X 的熵可简记为
H ( X ) = H ( p ) = H ( p 1 , p 2 , ⋯ , p n ) H(X)=H(\boldsymbol{p})=H\left(p_{1}, p_{2}, \cdots, p_{n}\right) \quad H(X)=H(p)=H(p1,p2,⋯,pn)
因此, H ( p 1 , p 2 , ⋯ , p n ) H\left(p_{1}, p_{2}, \cdots, p_{n}\right) H(p1,p2,⋯,pn) 也称为概率矢量 p = ( p 1 , p 2 , ⋯ , p n ) \boldsymbol{p}=\left(p_{1}, p_{2}, \cdots, p_{n}\right) p=(p1,p2,⋯,pn) 的熵。当 n = 2 n=2 n=2 时, 简记为 H ( p , 1 − p ) = H ( p ) H(p, 1-p)=H(p) H(p,1−p)=H(p)。其中, p ⩽ 1 / 2 p \leqslant 1 / 2 p⩽1/2, 为二元信源中一个符号的概率。
-
I(x)为事件 X = x X=x X=x 的自信息, E p ( x ) E_{p(x)} Ep(x) 表示对随机变量用 p ( x ) p(x) p(x) 取平均运算;
熵的单位为: 比特 (奈特)/符号。区分自信息的单位:比特(奈特)
-
∑ i = 1 n p i = 1 , 0 ⩽ p i ⩽ 1 \sum_{i=1}^{n} p_{i}=1,0 \leqslant p_{i} \leqslant 1 ∑i=1npi=1,0⩽pi⩽1, 所以 H ( X ) H(X) H(X) 为 n − 1 n-1 n−1 元函数。因为对于最后一个p可以用 1 − ∑ i = 1 n − 1 p i 1-\sum_{i=1}^{n-1} p_{i} 1−∑i=1n−1pi代替,因此自由度是n-1
信息熵是从平均意义上表征随机变量总体特性的一个量, 其含义体现在如下几方面。
-
在事件发生后, 表示平均每个事件(或符号)所提供的信息量。
-
在事件发生前, 表示随机变量取值的平均不确定性。
-
表示随机变量随机性大小, 熵大的, 随机性大。
-
当事件发生后, 其不确定性就被解除, 熵是解除随机变量不确定性平均所需信息量。
-
-
例题:
联合熵
联合熵用于多维随机矢量的信息度量。设 N N N 维随机矢量 X N = ( X 1 X 2 ⋯ X N ) \boldsymbol{X}^{N}=\left(X_{1} X_{2} \cdots X_{N}\right) XN=(X1X2⋯XN), 取值为 x = \boldsymbol{x}= x= ( x 1 , x 2 , ⋯ , x N ) \left(x_{1}, x_{2}, \cdots, x_{N}\right) (x1,x2,⋯,xN), 联合熵定义为联合自信息的平均值:
H ( X N ) = H ( X 1 X 2 ⋯ X n ) = E p ( x ) [ − log p ( x ) ] = − ∑ x p ( x ) log p ( x ) H\left(\boldsymbol{X}^{N}\right)=H\left(X_{1} X_{2} \cdots X_{n}\right)=E_{p(x)}[-\log p(\boldsymbol{x})]=-\sum_{\boldsymbol{x}} p(\boldsymbol{x}) \log p(\boldsymbol{x}) H(XN)=H(X1X2⋯Xn)=Ep(x)[−logp(x)]=−x∑p(x)logp(x)
其中, p ( x ) \mathrm{p}(\boldsymbol{x}) p(x) 为矢量 x \boldsymbol{x} x 的联合概率, 式中是 N N N 重求和。联合熵是信息熵的扩展, 单位是比特 / N / N /N 个符号。
对于二维随机矢量 X Y \boldsymbol{X Y} XY, 联合熵表示为
H ( X Y ) = E p ( x y ) [ I ( x y ) ] = − ∑ ∑ p ( x y ) log p ( x y ) H(\boldsymbol{X} \boldsymbol{Y})=E_{p(x y)}[I(x y)]=-\sum \sum p(x y) \log p(x y) H(XY)=Ep(xy)[I(xy)]=−∑∑p(xy)logp(xy)
例题:联合概率已知,求联合熵——使用一维熵的方法求解联合熵
方法分析:
除度量的对象不同外, 联合熵与信息熵的含义相同, 而信息熵也可以视为一维熵。 求联合熵与求信息熵也没有本质区别, 如果容易求得集合中所有随机矢量的概率, 那么就可以用求一维熵的方法求联合熵, 而无需多重求和。
如果联合概率中,有0概率的情况,则去掉
对于联合熵,其单位看变量个数,如变量为2,则单位为比特/2个符号。
条件熵
对于二维随机矢量 X Y X Y XY, 条件熵定义为条件自信息 I ( y ∣ x ) I(y \mid x) I(y∣x) 的平均值:采用联合概率 p ( x y ) p(xy) p(xy)求均值
H ( Y ∣ X ) = E p ( x y ) [ I ( y ∣ x ) ] = − ∑ x ∑ y p ( x y ) log p ( y ∣ x ) = ∑ x p ( x ) [ − ∑ y p ( y ∣ x ) log p ( y ∣ x ) ] = ∑ x p ( x ) H ( Y ∣ x ) ( 2.15 d ) H(Y \mid X)=\underset{p(x y)}{E}[I(y \mid x)]\\ \begin{aligned} &=-\sum_{x} \sum_{y} p(x y) \log p(y \mid x) \\ &=\sum_{x} p(x)\left[-\sum_{y} p(y \mid x) \log p(y \mid x)\right] \\ &=\sum_{x} p(x) H(Y \mid x)~~~~~~~~~~~~~~~~(2.15 \mathrm{~d}) \end{aligned} H(Y∣X)=p(xy)E[I(y∣x)]=−x∑y∑p(xy)logp(y∣x)=x