目录
一、 自信息
自信息是信息论中最基本的概念之一,用于度量单个事件发生时所提供的信息量。
-
定义:对于一个事件 xi,其自信息量定义为:
其中,p(xi) 是事件 xi 发生的概率。
-
单位:自信息的单位取决于对数的底数:以 2 为底时,单位为比特(bit)。
二、 离散信源的数学模型
离散信源是指输出符号为离散值的信源,其输出符号可以是有限的或可数无限的。离散信源的数学模型可以通过符号集合及其概率分布来描述。
-
定义:离散信源 X 可以表示为一个符号集合
,每个符号 xi 出现的概率为 p(xi),且满足:
-
信源的分类:
- 无记忆信源:信源输出的符号之间相互独立,当前符号的出现不受之前符号的影响。
- 有记忆信源:信源输出的符号之间存在依赖关系,当前符号的出现受之前符号的影响。
- 无记忆信源:信源输出的符号之间相互独立,当前符号的出现不受之前符号的影响。
离散信源的数学模型由两部分组成:符号集合。概率分布。
三、 信息熵
信息熵用于度量信源的不确定性。
-
定义:对于一个离散信源 X,其信息熵定义为:
其中:
是信源的符号集合。
- p(xi) 是符号 xi 出现的概率,且满足
。
-
信息熵表示信源的平均不确定性,熵越大,信源的不确定性越高。
四、 联合熵和条件熵
联合熵和条件熵用于描述多个信源之间的关系。
联合熵:
对于两个信源 X 和 Y,其联合熵定义为:
联合熵表示两个信源共同的不确定性。
其中:
- p(xy) 是信源 X 和 Y 同时输出符号 x 和 y 的联合概率。
- 联合熵表示两个信源共同的不确定性。
条件熵:
在已知信源 Y 的条件下,信源 X 的条件熵定义为:
条件熵表示在已知 Y 的情况下,X 的不确定性。
其中:
- p(x∣y) 是在已知 Y=y 的条件下,X=x 的条件概率。
- 条件熵表示在已知 Y 的情况下,X 的不确定性。
熵的链式法则:
联合熵可以分解为:
五、 熵的基本性质
1. 熵的基本性质
- 非负性:熵 H(X) 总是非负的,即 H(X)≥0。
- 确定性:当某个事件必然发生时,熵为 0,即 H(X)=0 当且仅当 p(x)=1 或 p(x)=0。
- 对称性:熵只与概率分布有关,与事件的顺序无关,即
。
- 扩展性:当某个事件的概率趋近于 0 时,该事件对熵的影响可以忽略,即
。
2. 链式法则
对于联合熵 H(XY),链式法则成立:
如果 X 和 Y 统计独立,则:
3. 极值性
熵的最大值出现在所有事件的概率相等时,即:
其中 n 是事件的总数。当 时,熵达到最大值。
4. 不增原理
条件熵 H(X∣Y) 总是小于或等于无条件熵 H(X),即:
等号成立当且仅当 X 和 Y 统计独立。
5. 独立界
对于多个随机变量 X1,X2,…,Xn,联合熵满足:
等号成立当且仅当所有 Xi 统计独立。
问题描述
- 随机变量 X 的符号集为 {0,1},其概率分布为:
- P(X=0)=2/3
- P(X=1)=1/3
- 随机变量 Y 的符号集为 {0,1,2},其条件概率分布为:
- 当 X=0 时:
- P(Y=0∣X=0)=3/4
- P(Y=1∣X=0)=0
- P(Y=2∣X=0)=1/4
- 当 X=1 时:
- P(Y=0∣X=1)=0
- P(Y=1∣X=1)=1/2
- P(Y=2∣X=1)=1/2
- 当 X=0 时:
要求计算:
- H(X):X 的熵
- H(Y):Y 的熵
- H(X∣Y):给定 Y 时 X 的条件熵
- H(X∣Y=0):当 Y=0 时 X 的条件熵
- H(X∣Y=1):当 Y=1 时 X 的条件熵
- H(X∣Y=2):当 Y=2 时 X 的条件熵
计算过程
1. 计算 H(X)
H(X) 是 X 的熵,计算公式为:
代入数据:
2. 计算 H(Y)
H(Y) 是 Y 的熵,需要先计算 Y 的边际概率分布 P(y):
计算各 P(y):
因此:
3. 计算 H(X∣Y)
H(X∣Y) 是给定 Y 时 X 的条件熵,计算公式为:
需要先计算 H(X∣Y=y) 。
4. 计算 H(X∣Y=0)
当 Y=0 时,X 的条件概率分布为:
因此:
5. 计算 H(X∣Y=1)
当 Y=1 时,X 的条件概率分布为:
因此:
6. 计算 H(X∣Y=2)
当 Y=2 时,X 的条件概率分布为:
因此:
7. 计算 H(X∣Y)
根据条件熵的定义:
代入数据:
最终结果
- H(X)=0.9183 bit/sig
- H(Y)=1.4591 bit/sig
- H(X∣Y)=1/3 bit/sig
- H(X∣Y=0)=0 bit/sig
- H(X∣Y=1)=0 bit/sig
- H(X∣Y=2)=1 bit/sig