北邮信息论笔记

Losmier

已于 2022-05-02 19:10:46 修改

阅读量905

点赞数 3

分类专栏：大三下笔记文章标签：概率论矩阵

于 2022-04-08 11:54:38 首次发布

本文链接：https://blog.csdn.net/m0_45921888/article/details/124035937

版权

信息论基础

概述

信息的基本概念

概念：信息是认识主体（人、生物、机器）所感受的和所表达的事物运动的状态和运动状态变化的方式。

特征：

信息有许多与物质、能量相同的特征，例如信息可以产生、消失、携带、处理和量度。

信息也有与物质、能量不同的特征，例如，信息可以共享，可以无限制地复制等

信息的三个基本层次

语法（Syntactic）信息

是事物运动的状态和变化方式的外在形式，不涉及状态含义和效用。包括：中文、英文、密文。

通信信息归属于语法信息，其中也有三个层次：信号、消息、信息

消息是信息的携带者，信息包含于消息之中。

信号是消息的载体，消息是信号的具体内容。
语义（Semantic）信息

是事物运动的状态和变化方式的含义。
语用（Pragmatic）信息

是事物运动状态及其状态改变方式的效用。

**研究语义信息要以语法信息为基础，研究语用信息要以语义信息和语法信息为基础。**三者之间，语法信息是最简单、最基本的层次，语用信息则是最复杂、最实用的层次。

香农信息论或经典信息论所研究的信息是语法信息中的概率信息。
香农还把信源看成具有输出的随机过程。

在这里插入图片描述

通信系统模型

通信的性能指标

传输的有效性（快）-数据压缩

有效性用频谱利用率来衡量。
提高有效性的措施：采用信源编码以压缩码率，采用频谱利用率高的调制减小传输带宽

传输的可靠性（好）-数据纠错

可靠性用传输错误率来衡量。

提高可靠性的措施：采用信道编码以降低错误率

传输的安全（安全）-数据加密

安全性可通过信息的加密强度来衡量。

提高安全性的措施：采用强度高的加密和伪装技术

香农信息论解决了前两项技术的理论问题

提高有效性可通过信源编码来实现
提高可靠性通过信道编码来实现

模型

在这里插入图片描述

信源

功能：直接产生消息或消息序列
按输出符号的取值分类——离散信源、连续信源
按输出符号之间的依赖关系分类——无记忆信源、有记忆信源
编码器

功能是将消息变成适合于信道传输的信号
编码器包括：
信源编码器（source encoder）

信道编码器（channel encoder）

调制器（modulator）

功能：将编码器的输出符号变成适合信道传输的
目的：提高传输效率
信道
- 狭义信道
- 广义信道
- 无噪声信道和有噪声信道
- 加性噪声和乘性噪声
- AWGN信道
译码器

译码器的功能：从信号中恢复消息

在这里插入图片描述

信宿

功能：接收信息，包括人或设备

离散信息的度量

自信息

信息量、不确定度与时间概率
- 事件概率越小，事件不确定性越大，信息量越大；
- 发生概率为1的必然事件，无不确定性
- 发生概率为0的不可能事件，不确定性无限大
- 独立事件发生包含的信息量为各事件信息量的和
某事件发生所含有的信息量应是该事件发生先验概率的函数
$I(x_i)=f[p(x_i)]$
自信息(随机变量，不是随机事件)

事件集合X中事件 $x=a_i$ 的自信息

—— $I_x(a_i)=-logP_x(a_i)$ 简记为 $I(x)=logp(x)或I(a_i)=-logp_i$
- 自信息非负
- $0<p_i<1$
- 对数的底数常见为：2、e、10
- 自信息包括
  - 事件发生前，事件发生的不确定性
  - 事件发生后，事件包含的信息量
- 例题：
  
  1、箱中有90个红球，10个白球。现从箱中随机地取出一个球。求：
  （1）事件“取出一个红球”的不确定性；
  （2）事件“取出一个白球”所提供的信息量；
  （3）事件“取出一个红球”与“取出一个白球”的发生，哪个更难猜测？
  
  解：
  
  （1）设a，表示“取出一个红球”的事件，则 $p(a_i)= 0.9$ 故事件a，的不确定性为： $I(a_1)=-log 0.9 = 0.152$ 比特
  （2）设a表示“取出一个白球”的事件，则 $p(a_2)=0.1$ 故事件a2所提供的信息量为： $I(a_2)=-log 0.1= 3.323$ 比特
  （3）因为 $I(a_2)>I(a_1)$ ,所以事件“取出一个白球”的发生更难猜测。
联合自信息

事件集合XY 中的事件 $x=a_i$ ， $y=b_i$ ，的自信息：

$ I_{XY}(a_i，b_j)=-logP_{XY}(a_i，b_j) $简记$ I(xy)=-logp(xy)$
- 条件同上
- 例题：
  
  2、箱中球不变，现从箱中随机取出两个球。求：
  
  （1）事件“两个球中有红、白球各一个”的不确定性；
  （2）事件“两个球都是白球”所提供的信息量；
  （3）事件“两个球都是白球”和“两个球都是红球”的发生，哪个事件更难猜测？
条件自信息

事件 $y=b_j$ 给定，事件 $x=a_i$ 的自信息：

$I_{xy}(a_i|bj)=-logP_{x|y}(a_i|b_j)简记I(x|y)=-logp(x|y)$
- $p (x ∣ y)$ 要满足非负和归一化条件，条件自信息为正
- $y=b_j给定，x=a_i$ ，发生前→事件x发生的不确定性
- $y=b_j给定，x=a_i，$ 发生后→事件x包含的信息量
- $I (x y) = I (x) + I (y ∣ x) = I (y) + I (x ∣ y)$ ,自信息、条件自信息、联合自信息的关系
- 例题：
  
  3、箱中球不变，现从箱中先拿出一球，再拿出一球求：
  （1）事件“在第一个球是红球条件下，第二个球是白球”的不确定性；
  （2）事件“在第一个球是红球条件下，第二个球是红球”所提供的信息量。
  
  解：
  
  4、有8x8=64个方格，甲将一棋子放入方格中，让乙猜：
  1）将方格按顺序编号，让乙猜顺序号的困难程度为何？
  2）将方格按行和列编号，当甲告诉乙方格的行号后，让乙猜列顺序号的困难程度为何？
  
  解：
  
  注意
  
  自信息的单位，bit
  
  困难程度和自信息对标

互信息

概念：设两个事件集合 $X$ 和 $Y$ , 其中事件 $\in X$ , 事件 $\in Y_{\circ}$ 由于空间或时间的限制, 有时我们不能直接观察 $x$ , 只有通过观察 $y$ 获取关于 $x$ 的信息，称为互信息。

离散随机事件 $x=a_{i}$ 和 $y=b_{j}$ 之间的互信息 $\in X, y \in Y)$ 定义为
$I_{X ; Y}\left(a_{i} ; b_{j}\right)=\log \frac{P_{X \mid Y}\left(a_{\mathrm{i}} \mid b_{j}\right)}{P_{X}\left(a_{\mathrm{i}}\right)}$
简记为（注意没有负号）
$y)=\log \frac{p(x \mid y)}{p(x)}=\log \frac{p(y \mid x)}{p(y)}=\log \frac{p(x y)}{p(x) p(y)}$
通过计算可得
$\mid y)$

互信息的单位与自信息单位相同。

$x$ 与 $y$ 之间的互信息等于 $x$ 的自信息减去在 $y$ 条件下 $x$ 的自信息。 $I (x)$ 表示 $x$ 的不确定性, $\mid y)$ 表示在 $y$ 发生条件下 $x$ 的不确定性, 因此 $I (x; y)$ 表示当 $y$ 发生后 $x$ 不确定性的变化。两个不确定度之差, 是不确定度消除的部分, 也就是由 $y$ 发生所得到的关于 $x$ 的信息量。

互信息反映了两个随机事件 $x$ 与 $y$ 之间的统计关联程度。在通信系统中, 互信息的物理意义是, 信道输出端接收到某消息（或消息序列） $y$ 后, 获得的关于输入端某消息（或消息序列) $x$ 的信息量。

互信息的性质
- 互易性
- 当事件x，y统计独立时，互信息为0，即I（x；y）=0互信息
- 可正可负
- 任何两事件之间的互信息不可能大于其中任一事件的自信息
例题

5、
条件互信息（似乎不太重要）

设联合事件集 $X Y Z$ , 在给定 $\in Z$ 条件下, $x(\in X)$ 与 $y(\in Y)$ 之间的条件互信息定义为
$\mid z)=\log \frac{p(x \mid y z)}{p(x \mid z)}$
除条件外, 条件互信息的含义与互信息的含义与性质都相同。

错题

1、

2、两个筛子，求问两个筛子的点数都为6的自信息是多少： $log_236=2log_26$

注意对数计算的坑，乘号是加号，乘方是倍数。

3、错题

在这里插入图片描述

信息熵的基本概念

信息熵

离散随机变量 $X$ 的熵定义为自信息的平均值
$H(X)=E_{p(x)}[I(x)]=-\sum_{x} p(x) \log p(x)$
$X$ 的概率分布可写成矢量形式, 称为概率矢量, 记为 $p=\left(p_{1}, p_{2}, \cdots, p_{n}\right), X$ 的熵可简记为
$H(X)=H(\boldsymbol{p})=H\left(p_{1}, p_{2}, \cdots, p_{n}\right) \quad$
因此, $H\left(p_{1}, p_{2}, \cdots, p_{n}\right)$ 也称为概率矢量 $\boldsymbol{p}=\left(p_{1}, p_{2}, \cdots, p_{n}\right)$ 的熵。当 $n = 2$ 时, 简记为 $H (p, 1 - p) = H (p)$ 。其中, $\leqslant 1 / 2$ , 为二元信源中一个符号的概率。

I(x)为事件 $X = x$ 的自信息, $E_{p(x)}$ 表示对随机变量用 $p (x)$ 取平均运算;

熵的单位为: 比特 (奈特)/符号。区分自信息的单位：比特（奈特）
$\sum_{i=1}^{n} p_{i}=1,0 \leqslant p_{i} \leqslant 1$ , 所以 $H (X)$ 为 $n - 1$ 元函数。因为对于最后一个p可以用 $1-\sum_{i=1}^{n-1} p_{i}$ 代替，因此自由度是n-1

信息熵是从平均意义上表征随机变量总体特性的一个量, 其含义体现在如下几方面。
- 在事件发生后, 表示平均每个事件（或符号）所提供的信息量。
- 在事件发生前, 表示随机变量取值的平均不确定性。
- 表示随机变量随机性大小, 熵大的, 随机性大。
- 当事件发生后, 其不确定性就被解除, 熵是解除随机变量不确定性平均所需信息量。
例题：

联合熵

联合熵用于多维随机矢量的信息度量。设 $N$ 维随机矢量 $\boldsymbol{X}^{N}=\left(X_{1} X_{2} \cdots X_{N}\right)$ , 取值为 $\boldsymbol{x}=$ $\left(x_{1}, x_{2}, \cdots, x_{N}\right)$ , 联合熵定义为联合自信息的平均值:
$H\left(\boldsymbol{X}^{N}\right)=H\left(X_{1} X_{2} \cdots X_{n}\right)=E_{p(x)}[-\log p(\boldsymbol{x})]=-\sum_{\boldsymbol{x}} p(\boldsymbol{x}) \log p(\boldsymbol{x})$
其中, $\mathrm{p}(\boldsymbol{x})$ 为矢量 $\boldsymbol{x}$ 的联合概率, 式中是 $N$ 重求和。联合熵是信息熵的扩展, 单位是比特 $/ N$ 个符号。

对于二维随机矢量 $\boldsymbol{X Y}$ , 联合熵表示为
$H(\boldsymbol{X} \boldsymbol{Y})=E_{p(x y)}[I(x y)]=-\sum \sum p(x y) \log p(x y)$

例题：联合概率已知，求联合熵——使用一维熵的方法求解联合熵

方法分析：

除度量的对象不同外, 联合熵与信息熵的含义相同, 而信息熵也可以视为一维熵。求联合熵与求信息熵也没有本质区别, 如果容易求得集合中所有随机矢量的概率, 那么就可以用求一维熵的方法求联合熵, 而无需多重求和。

如果联合概率中，有0概率的情况，则去掉

对于联合熵，其单位看变量个数，如变量为2，则单位为比特/2个符号。

条件熵

对于二维随机矢量 $X Y$ , 条件熵定义为条件自信息 $\mid x)$ 的平均值:采用联合概率 $p (x y)$ 求均值
$\mid X)=\underset{p(x y)}{E}[I(y \mid x)]\\ \begin{aligned} &=-\sum_{x} \sum_{y} p(x y) \log p(y \mid x) \\ &=\sum_{x} p(x)\left[-\sum_{y} p(y \mid x) \log p(y \mid x)\right] \\ &=\sum_{x} p(x) H(Y \mid x)~~~~~~~~~~~~~~~~(2.15 \mathrm{~d}) \end{aligned}$

最低0.47元/天解锁文章

Losmier

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
北邮信息论笔记

信息论基础概述信息的基本概念概念：信息是认识主体（人、生物、机器）所感受的和所表达的事物运动的状态和运动状态变化的方式。特征：信息有许多与物质、能量相同的特征，例如信息可以产生、消失、携带、处理和量度。信息也有与物质、能量不同的特征，例如，信息可以共享，可以无限制地复制等信息的三个基本层次语法（Syntactic）信息是事物运动的状态和变化方式的外在形式，不涉及状态含义和效用。包括：中文、英文、密文。通信信息归属于语法信息，其中也有三个层次：信号、消息、信息消息是信息的携带者
复制链接

扫一扫