北邮信息论笔记

信息论基础

概述

信息的基本概念

概念:信息是认识主体(人、生物、机器)所感受的和所表达的事物运动的状态和运动状态变化的方式。

特征:

信息有许多与物质、能量相同的特征,例如信息可以产生、消失、携带、处理和量度。

信息也有与物质、能量不同的特征,例如,信息可以共享,可以无限制地复制等

信息的三个基本层次

  • 语法(Syntactic)信息

    是事物运动的状态和变化方式的外在形式,不涉及状态含义和效用。包括:中文、英文、密文。

    通信信息归属于语法信息,其中也有三个层次:信号、消息、信息

    消息是信息的携带者,信息包含于消息之中。

    信号是消息的载体,消息是信号的具体内容。

  • 语义(Semantic)信息

    是事物运动的状态和变化方式的含义

  • 语用(Pragmatic)信息

    是事物运动状态及其状态改变方式的效用
    在这里插入图片描述

**研究语义信息要以语法信息为基础,研究语用信息要以语义信息和语法信息为基础。**三者之间,语法信息是最简单、最基本的层次,语用信息则是最复杂、最实用的层次。

香农信息论或经典信息论所研究的信息是语法信息中的概率信息。
香农还把信源看成具有输出的随机过程

在这里插入图片描述

通信系统模型

通信的性能指标
  • 传输的有效性(快)-数据压缩

    有效性用频谱利用率来衡量。
    提高有效性的措施:采用信源编码以压缩码率,采用频谱利用率高的调制减小传输带宽

  • 传输的可靠性(好)-数据纠错

    可靠性用传输错误率来衡量。

    提高可靠性的措施:采用信道编码以降低错误率

  • 传输的安全(安全)-数据加密

    安全性可通过信息的加密强度来衡量。

    提高安全性的措施:采用强度高的加密和伪装技术

香农信息论解决了前两项技术的理论问题

​ 提高有效性可通过信源编码来实现
​ 提高可靠性通过信道编码来实现

模型

在这里插入图片描述

  • 信源

    功能:直接产生消息或消息序列
    按输出符号的取值分类——离散信源、连续信源
    按输出符号之间的依赖关系分类——无记忆信源、有记忆信源

  • 编码器

    功能是将消息变成适合于信道传输的信号
    编码器包括:
    信源编码器(source encoder)

    image-20220312152516219

    信道编码器(channel encoder)

    image-20220312152621437

    调制器(modulator)

    功能:将编码器的输出符号变成适合信道传输的
    目的:提高传输效率

  • 信道

    • 狭义信道
    • 广义信道
    • 无噪声信道和有噪声信道
    • 加性噪声和乘性噪声
    • AWGN信道
  • 译码器

    译码器的功能:从信号中恢复消息

在这里插入图片描述

  • 信宿

​ 功能:接收信息,包括人或设备

离散信息的度量

自信息

  • 信息量、不确定度与时间概率

    • 事件概率越小,事件不确定性越大,信息量越大;
    • 发生概率为1的必然事件,无不确定性
    • 发生概率为0的不可能事件,不确定性无限大
    • 独立事件发生包含的信息量为各事件信息量的和

    某事件发生所含有的信息量应是该事件发生先验概率的函数
    I ( x i ) = f [ p ( x i ) ] I(x_i)=f[p(x_i)] I(xi)=f[p(xi)]
    image-20220312213542556

  • 自信息(随机变量,不是随机事件)

    事件集合X中事件 x = a i x=a_i x=ai的自信息

    —— I x ( a i ) = − l o g P x ( a i ) I_x(a_i)=-logP_x(a_i) Ix(ai)=logPx(ai)简记为 I ( x ) = l o g p ( x ) 或 I ( a i ) = − l o g p i I(x)=logp(x)或I(a_i)=-logp_i I(x)=logp(x)I(ai)=logpi

    • 自信息非负

    • 0 < p i < 1 0<p_i<1 0<pi<1

    • 对数的底数常见为:2、e、10

    • 自信息包括

      • 事件发生前,事件发生的不确定性
      • 事件发生后,事件包含的信息量
    • 例题:

      1、箱中有90个红球,10个白球。现从箱中随机地取出一个球。求:
      (1)事件“取出一个红球”的不确定性;
      (2)事件“取出一个白球”所提供的信息量;
      (3)事件“取出一个红球”与“取出一个白球”的发生,哪个更难猜测?

      解:

      (1)设a,表示“取出一个红球”的事件,则 p ( a i ) = 0.9 p(a_i)= 0.9 p(ai)=0.9故事件a,的不确定性为: I ( a 1 ) = − l o g 0.9 = 0.152 I(a_1)=-log 0.9 = 0.152 I(a1)=log0.9=0.152 比特
      (2)设a表示“取出一个白球”的事件,则 p ( a 2 ) = 0.1 p(a_2)=0.1 p(a2)=0.1故事件a2所提供的信息量为: I ( a 2 ) = − l o g 0.1 = 3.323 I(a_2)=-log 0.1= 3.323 I(a2)=log0.1=3.323 比特
      (3)因为 I ( a 2 ) > I ( a 1 ) I(a_2)>I(a_1) I(a2)>I(a1),所以事件“取出一个白球”的发生更难猜测。

  • 联合自信息

    事件集合XY 中的事件 x = a i x=a_i x=ai y = b i y=b_i y=bi,的自信息:

    $ I_{XY}(a_i,b_j)=-logP_{XY}(a_i,b_j) 简 记 简记 I(xy)=-logp(xy)$

    • 条件同上

    • 例题:

      2、箱中球不变,现从箱中随机取出两个球。求:

      (1)事件“两个球中有红、白球各一个”的不确定性;
      (2)事件“两个球都是白球”所提供的信息量;
      (3)事件“两个球都是白球”和“两个球都是红球”的发生,哪个事件更难猜测?

  • 条件自信息

    事件 y = b j y=b_j y=bj给定,事件 x = a i x=a_i x=ai的自信息:

    I x y ( a i ∣ b j ) = − l o g P x ∣ y ( a i ∣ b j ) 简 记 I ( x ∣ y ) = − l o g p ( x ∣ y ) I_{xy}(a_i|bj)=-logP_{x|y}(a_i|b_j)简记I(x|y)=-logp(x|y) Ixy(aibj)=logPxy(aibj)I(xy)=logp(xy)

    • p ( x ∣ y ) p(x|y) p(xy)要满足非负和归一化条件,条件自信息为正

    • y = b j 给 定 , x = a i y=b_j给定,x=a_i y=bjx=ai,发生前→事件x发生的不确定性

    • y = b j 给 定 , x = a i , y=b_j给定,x=a_i, y=bjx=ai发生后→事件x包含的信息量

    • I ( x y ) = I ( x ) + I ( y ∣ x ) = I ( y ) + I ( x ∣ y ) I(xy)=I(x)+I(y|x)=I(y)+I(x|y) I(xy)=I(x)+I(yx)=I(y)+I(xy),自信息、条件自信息、联合自信息的关系

    • 例题:

      3、箱中球不变,现从箱中先拿出一球,再拿出一球求:
      (1)事件“在第一个球是红球条件下,第二个球是白球”的不确定性;
      (2)事件“在第一个球是红球条件下,第二个球是红球”所提供的信息量。

      解:

      image-20220312223234096

      4、有8x8=64个方格,甲将一棋子放入方格中,让乙猜:
      1)将方格按顺序编号,让乙猜顺序号的困难程度为何?
      2)将方格按行和列编号,当甲告诉乙方格的行号后,让乙猜列顺序号的困难程度为何?

      解:

      image-20220312223402517

      注意

      自信息的单位,bit

      困难程度和自信息对标

互信息

概念:设两个事件集合 X X X Y Y Y, 其中事件 x ∈ X x \in X xX, 事件 y ∈ Y ∘ y \in Y_{\circ} yY 由于空间或时间的限制, 有时我们 不能直接观察 x x x, 只有通过观察 y y y 获取关于 x x x 的信息,称为互信息。

离散随机事件 x = a i x=a_{i} x=ai y = b j y=b_{j} y=bj 之间的互信息 ( x ∈ X , y ∈ Y ) (x \in X, y \in Y) (xX,yY) 定义为
I X ; Y ( a i ; b j ) = log ⁡ P X ∣ Y ( a i ∣ b j ) P X ( a i ) I_{X ; Y}\left(a_{i} ; b_{j}\right)=\log \frac{P_{X \mid Y}\left(a_{\mathrm{i}} \mid b_{j}\right)}{P_{X}\left(a_{\mathrm{i}}\right)} IX;Y(ai;bj)=logPX(ai)PXY(aibj)
简记为(注意没有负号)
I ( x ; y ) = log ⁡ p ( x ∣ y ) p ( x ) = log ⁡ p ( y ∣ x ) p ( y ) = log ⁡ p ( x y ) p ( x ) p ( y ) I(x ; y)=\log \frac{p(x \mid y)}{p(x)}=\log \frac{p(y \mid x)}{p(y)}=\log \frac{p(x y)}{p(x) p(y)} I(x;y)=logp(x)p(xy)=logp(y)p(yx)=logp(x)p(y)p(xy)
通过计算可得
I ( x ; y ) = I ( x ) − I ( x ∣ y ) I(x ; y)=I(x)-I(x \mid y) I(x;y)=I(x)I(xy)

  • 互信息的单位与自信息单位相同
  • x x x y y y 之间的互信息等于 x x x 的自信息减去在 y y y 条件下 x x x 的自信息。 I ( x ) I(x) I(x) 表示 x x x 的不确 定性, I ( x ∣ y ) I(x \mid y) I(xy) 表示在 y y y 发生条件下 x x x 的不确定性, 因此 I ( x ; y ) I(x ; y) I(x;y) 表示当 y y y 发生后 x x x 不确定性的 变化。两个不确定度之差, 是不确定度消除的部分, 也就是由 y y y 发生所得到的关于 x x x 的信 息量。
  • 互信息反映了两个随机事件 x x x y y y 之间的统计关联程度。在通信系统中, 互信息的物理意义是, 信道输出端接收到某消息(或消息序列) y y y 后, 获得的关于输入端某消息(或消 息序列) x x x 的信息量。
  • 互信息的性质

    • 互易性

    • 当事件x,y统计独立时,互信息为0,即I(x;y)=0互信息

    • 可正可负

    • 任何两事件之间的互信息不可能大于其中任一事件的自信息

  • 例题

    5、

    image-20220312230455321

    image-20220312230508372

  • 条件互信息(似乎不太重要)

    设联合事件集 X Y Z X Y Z XYZ, 在给定 z ∈ Z z \in Z zZ 条件下, x ( ∈ X ) x(\in X) x(X) y ( ∈ Y ) y(\in Y) y(Y) 之间的条件互信息定义为
    I ( x ; y ∣ z ) = log ⁡ p ( x ∣ y z ) p ( x ∣ z ) I(x ; y \mid z)=\log \frac{p(x \mid y z)}{p(x \mid z)} I(x;yz)=logp(xz)p(xyz)
    除条件外, 条件互信息的含义与互信息的含义与性质都相同。

    错题

    1、

    QQ截图20220310083701

    2、两个筛子,求问两个筛子的点数都为6的自信息是多少: l o g 2 36 = 2 l o g 2 6 log_236=2log_26 log236=2log26

    注意对数计算的坑,乘号是加号,乘方是倍数。

    3、错题

    QQ截图20220310084502

在这里插入图片描述
在这里插入图片描述

信息熵的基本概念

信息熵

离散随机变量 X X X 的熵定义为自信息的平均值
H ( X ) = E p ( x ) [ I ( x ) ] = − ∑ x p ( x ) log ⁡ p ( x ) H(X)=E_{p(x)}[I(x)]=-\sum_{x} p(x) \log p(x) H(X)=Ep(x)[I(x)]=xp(x)logp(x)
X X X 的概率分布可写成矢量形式, 称为概率矢量, 记为 p = ( p 1 , p 2 , ⋯   , p n ) , X p=\left(p_{1}, p_{2}, \cdots, p_{n}\right), X p=(p1,p2,,pn),X 的熵可简记为
H ( X ) = H ( p ) = H ( p 1 , p 2 , ⋯   , p n ) H(X)=H(\boldsymbol{p})=H\left(p_{1}, p_{2}, \cdots, p_{n}\right) \quad H(X)=H(p)=H(p1,p2,,pn)
因此, H ( p 1 , p 2 , ⋯   , p n ) H\left(p_{1}, p_{2}, \cdots, p_{n}\right) H(p1,p2,,pn) 也称为概率矢量 p = ( p 1 , p 2 , ⋯   , p n ) \boldsymbol{p}=\left(p_{1}, p_{2}, \cdots, p_{n}\right) p=(p1,p2,,pn) 的熵。当 n = 2 n=2 n=2 时, 简记为 H ( p , 1 − p ) = H ( p ) H(p, 1-p)=H(p) H(p,1p)=H(p)。其中, p ⩽ 1 / 2 p \leqslant 1 / 2 p1/2, 为二元信源中一个符号的概率。

  • I(x)为事件 X = x X=x X=x 的自信息, E p ( x ) E_{p(x)} Ep(x) 表示对随机变量用 p ( x ) p(x) p(x) 取平均运算;

    熵的单位为: 比特 (奈特)/符号。区分自信息的单位:比特(奈特)

  • ∑ i = 1 n p i = 1 , 0 ⩽ p i ⩽ 1 \sum_{i=1}^{n} p_{i}=1,0 \leqslant p_{i} \leqslant 1 i=1npi=1,0pi1, 所以 H ( X ) H(X) H(X) n − 1 n-1 n1 元函数。因为对于最后一个p可以用 1 − ∑ i = 1 n − 1 p i 1-\sum_{i=1}^{n-1} p_{i} 1i=1n1pi代替,因此自由度是n-1

    信息熵是从平均意义上表征随机变量总体特性的一个量, 其含义体现在如下几方面。

    • 在事件发生后, 表示平均每个事件(或符号)所提供的信息量

    • 在事件发生前, 表示随机变量取值的平均不确定性

    • 表示随机变量随机性大小, 熵大的, 随机性大。

    • 当事件发生后, 其不确定性就被解除, 熵是解除随机变量不确定性平均所需信息量

  • 例题:

    image-20220313114404980

    image-20220313114422763

联合熵

联合熵用于多维随机矢量的信息度量。设 N N N 维随机矢量 X N = ( X 1 X 2 ⋯ X N ) \boldsymbol{X}^{N}=\left(X_{1} X_{2} \cdots X_{N}\right) XN=(X1X2XN), 取值为 x = \boldsymbol{x}= x= ( x 1 , x 2 , ⋯   , x N ) \left(x_{1}, x_{2}, \cdots, x_{N}\right) (x1,x2,,xN), 联合熵定义为联合自信息的平均值:
H ( X N ) = H ( X 1 X 2 ⋯ X n ) = E p ( x ) [ − log ⁡ p ( x ) ] = − ∑ x p ( x ) log ⁡ p ( x ) H\left(\boldsymbol{X}^{N}\right)=H\left(X_{1} X_{2} \cdots X_{n}\right)=E_{p(x)}[-\log p(\boldsymbol{x})]=-\sum_{\boldsymbol{x}} p(\boldsymbol{x}) \log p(\boldsymbol{x}) H(XN)=H(X1X2Xn)=Ep(x)[logp(x)]=xp(x)logp(x)
其中, p ( x ) \mathrm{p}(\boldsymbol{x}) p(x) 为矢量 x \boldsymbol{x} x 的联合概率, 式中是 N N N 重求和。联合熵是信息熵的扩展, 单位是比特 / N / N /N 个符号。

对于二维随机矢量 X Y \boldsymbol{X Y} XY, 联合熵表示为
H ( X Y ) = E p ( x y ) [ I ( x y ) ] = − ∑ ∑ p ( x y ) log ⁡ p ( x y ) H(\boldsymbol{X} \boldsymbol{Y})=E_{p(x y)}[I(x y)]=-\sum \sum p(x y) \log p(x y) H(XY)=Ep(xy)[I(xy)]=p(xy)logp(xy)

例题:联合概率已知,求联合熵——使用一维熵的方法求解联合熵

image-20220313115705757

方法分析:

除度量的对象不同外, 联合熵与信息熵的含义相同, 而信息熵也可以视为一维熵。 求联合熵与求信息熵也没有本质区别, 如果容易求得集合中所有随机矢量的概率, 那么就可以用求一维熵的方法求联合熵, 而无需多重求和。

如果联合概率中,有0概率的情况,则去掉

对于联合熵,其单位看变量个数,如变量为2,则单位为比特/2个符号。

条件熵

对于二维随机矢量 X Y X Y XY, 条件熵定义为条件自信息 I ( y ∣ x ) I(y \mid x) I(yx) 的平均值:采用联合概率 p ( x y ) p(xy) p(xy)求均值
H ( Y ∣ X ) = E p ( x y ) [ I ( y ∣ x ) ] = − ∑ x ∑ y p ( x y ) log ⁡ p ( y ∣ x ) = ∑ x p ( x ) [ − ∑ y p ( y ∣ x ) log ⁡ p ( y ∣ x ) ] = ∑ x p ( x ) H ( Y ∣ x )                  ( 2.15   d ) H(Y \mid X)=\underset{p(x y)}{E}[I(y \mid x)]\\ \begin{aligned} &=-\sum_{x} \sum_{y} p(x y) \log p(y \mid x) \\ &=\sum_{x} p(x)\left[-\sum_{y} p(y \mid x) \log p(y \mid x)\right] \\ &=\sum_{x} p(x) H(Y \mid x)~~~~~~~~~~~~~~~~(2.15 \mathrm{~d}) \end{aligned} H(YX)=p(xy)E[I(yx)]=xyp(xy)logp(yx)=x

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值