在离散随机变量(RV)信息度量的基础上,我们可以引入适用于连续随机变量的相应信息度量。这涉及到用积分替换离散情形下的求和操作,从而定义微分熵(differential entropy)。
1. 微分熵的定义
对于一个连续随机变量
X
X
X,其概率密度函数(pdf)为
p
(
x
)
p(x)
p(x)。微分熵
H
(
X
)
H(X)
H(X) 的定义为:
H
(
X
)
=
−
∫
p
(
x
)
log
(
1
p
(
x
)
)
d
x
=
−
∫
p
(
x
)
log
(
p
(
x
)
)
d
x
H(X) = - \int p(x) \log \left( \frac{1}{p(x)} \right) dx = - \int p(x) \log(p(x)) dx
H(X)=−∫p(x)log(p(x)1)dx=−∫p(x)log(p(x))dx
这个公式看起来与离散随机变量的熵公式类似,只是将离散情况下的求和符号替换为了积分符号,因为我们现在处理的是连续概率密度函数。
2. 微分熵与离散熵的不同之处
需要注意的是,微分熵并不直接表示连续信源发出的平均信息量,与离散熵有很大的不同。原因在于:
- 在离散熵中,概率 p ( x ) p(x) p(x) 是特定事件的概率,能够表示某个事件发生时的不确定性和信息量。
- 然而,在连续情形下, p ( x ) p(x) p(x) 是概率密度,它描述的是随机变量在某个点附近取值的可能性,而不是某个具体事件的概率。因为概率密度函数的值可以是任意非负实数,不再局限于离散情况下的概率,因此直接使用微分熵来度量信息量并不是完全合适。
3. 离散化方法
为了更好地理解连续随机变量的信息度量,我们可以通过离散化的方法来近似微分熵。即,将连续随机变量
X
X
X 按照一个很小的区间宽度
Δ
\Delta
Δ 进行离散化,这样每个区间上的概率可以近似为:
p
(
x
)
Δ
p(x) \Delta
p(x)Δ
此时,离散化后的熵可以表示为:
H
Δ
(
X
)
=
−
∑
i
p
(
x
i
)
log
(
p
(
x
i
)
Δ
)
H_\Delta(X) = - \sum_i p(x_i) \log(p(x_i) \Delta)
HΔ(X)=−i∑p(xi)log(p(xi)Δ)
随着区间宽度
Δ
\Delta
Δ 越来越小,熵的值会趋近于微分熵的表达式。
4. 微分熵的直观解释
虽然微分熵不再是离散情形下的平均信息量,但它仍然可以表示随机变量值的分布不确定性。如果 p ( x ) p(x) p(x) 很均匀分布,微分熵会较大,表示较高的不确定性。如果 p ( x ) p(x) p(x) 在某些区域集中,微分熵会较小,表示随机变量更“集中”。
5. 连续随机变量信息度量的例子
假设我们有一个均匀分布的随机变量
X
X
X 在区间 [0, 1] 上,其概率密度函数为:
p
(
x
)
=
1
,
x
∈
[
0
,
1
]
p(x) = 1, \quad x \in [0, 1]
p(x)=1,x∈[0,1]
此时,微分熵可以计算为:
H
(
X
)
=
−
∫
0
1
1
⋅
log
(
1
)
d
x
=
0
H(X) = - \int_0^1 1 \cdot \log(1) dx = 0
H(X)=−∫011⋅log(1)dx=0
因此,对于均匀分布在有限区间上的随机变量,其微分熵为零,表示没有额外的不确定性。
微分熵(differential entropy)的公式解释
1. 离散化连续随机变量
对于连续随机变量,我们用概率密度函数(pdf) p ( x ) p(x) p(x) 来描述。为了将连续的情形转化为离散熵,我们可以将连续的随机变量离散化。具体来说,我们将 X X X 分成很多很小的区间(称为“bin”),每个区间的宽度为 Δ \Delta Δ。
当区间非常小(即
Δ
→
0
\Delta \to 0
Δ→0)时,概率可以近似表示为
p
(
x
i
)
Δ
p(x_i) \Delta
p(xi)Δ。因此,离散化后的熵可以表示为:
H
Δ
(
X
)
=
∑
i
p
(
x
i
)
Δ
log
(
1
p
(
x
i
)
Δ
)
H^\Delta(X) = \sum_{i} p(x_i) \Delta \log \left( \frac{1}{p(x_i) \Delta} \right)
HΔ(X)=i∑p(xi)Δlog(p(xi)Δ1)
2. 展开公式
文中公式的推导过程解释了这个离散化熵的公式如何展开成两部分:
H
Δ
(
X
)
=
∑
i
p
(
x
i
)
Δ
log
(
1
p
(
x
i
)
)
+
∑
i
p
(
x
i
)
Δ
log
(
1
Δ
)
H^\Delta(X) = \sum_{i} p(x_i) \Delta \log \left( \frac{1}{p(x_i)} \right) + \sum_{i} p(x_i) \Delta \log \left( \frac{1}{\Delta} \right)
HΔ(X)=i∑p(xi)Δlog(p(xi)1)+i∑p(xi)Δlog(Δ1)
分析:
-
第一部分: ∑ p ( x i ) Δ log ( 1 p ( x i ) ) \sum p(x_i) \Delta \log \left( \frac{1}{p(x_i)} \right) ∑p(xi)Δlog(p(xi)1),当 Δ → 0 \Delta \to 0 Δ→0 时,这部分趋近于微分熵的定义:
H ( X ) = − ∫ p ( x ) log p ( x ) d x H(X) = - \int p(x) \log p(x) dx H(X)=−∫p(x)logp(x)dx
这就是公式 (3.11) 中提到的微分熵。 -
第二部分: ∑ p ( x i ) Δ log ( 1 Δ ) \sum p(x_i) \Delta \log \left( \frac{1}{\Delta} \right) ∑p(xi)Δlog(Δ1),这是一个与 p ( x ) p(x) p(x) 无关的项。这个项的和为:
log Δ \log \Delta logΔ
当 Δ → 0 \Delta \to 0 Δ→0 时,这个项趋向于负无穷大,说明当区间宽度趋近于零时,离散化熵趋于无穷大。这反映了连续随机变量有无限多的可能值,因此它带来的不确定性也趋于无穷。
3. 微分熵的物理意义
如上所述,微分熵并不像离散熵那样直接表示平均信息量,这是因为连续随机变量的概率密度函数是一个连续值,而不是离散的概率值。微分熵仅在计算两个不同分布的差异时具有意义。例如,互信息(mutual information) 是通过两个熵的差值来计算的,而这些差值不会受到
−
log
Δ
-\log \Delta
−logΔ 项的影响。
微分熵的互信息的公式解释
4. 最大微分熵
对于给定总功率
σ
2
\sigma^2
σ2 的所有连续随机变量来说,具有最大微分熵的是零均值的高斯分布。其最大值为:
H
=
1
2
log
2
(
2
π
e
σ
2
)
H = \frac{1}{2} \log_2 (2 \pi e \sigma^2)
H=21log2(2πeσ2)
这意味着在相同功率限制下,高斯分布的微分熵最大,因此高斯分布在信道容量计算中具有特别重要的作用。
6. 互信息的定义
最后,互信息
I
(
X
;
Y
)
I(X; Y)
I(X;Y) 的定义,用于描述两个随机变量之间共享的信息量。互信息可以表示为:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X; Y) = H(X) - H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
其中
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y) 是条件熵,表示在已知
Y
Y
Y 的情况下关于
X
X
X 的不确定性。
互信息的公式也可以写为:
I
(
X
;
Y
)
=
∫
∫
p
(
x
,
y
)
log
(
p
(
x
,
y
)
p
(
x
)
p
(
y
)
)
d
x
d
y
I(X; Y) = \int \int p(x, y) \log \left( \frac{p(x, y)}{p(x) p(y)} \right) dx dy
I(X;Y)=∫∫p(x,y)log(p(x)p(y)p(x,y))dxdy
这表明
I
(
X
;
Y
)
I(X; Y)
I(X;Y) 衡量了
X
X
X 和
Y
Y
Y 之间的统计依赖性。如果
X
X
X 和
Y
Y
Y 是独立的,互信息为零。
例子:高斯信道中的互信息计算
场景设定:
假设我们有一个简单的加性高斯白噪声信道(AWGN),用于传输信号。该信道模型表示接收的信号
Y
Y
Y 由发送的信号
X
X
X 和一个独立的高斯噪声
N
N
N 组成,公式如下:
Y
=
X
+
N
Y = X + N
Y=X+N
其中:
- X X X 是发送端的信号,假设它服从均值为 0、方差为 σ X 2 \sigma_X^2 σX2 的高斯分布。
- N N N 是噪声,假设它服从均值为 0、方差为 σ N 2 \sigma_N^2 σN2 的高斯分布,独立于 X X X。
- Y Y Y 是接收端的信号。
我们要计算这个信道中的互信息 I ( X ; Y ) I(X; Y) I(X;Y),即在接收到信号 Y Y Y 之后,能够获得的关于 X X X 的信息量。
例子
1. 微分熵的计算
首先,我们需要分别计算 X X X、 Y Y Y 以及条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y) 的微分熵。
(1) X X X 的微分熵
因为
X
X
X 是均值为 0、方差为
σ
X
2
\sigma_X^2
σX2 的高斯随机变量,根据高斯分布的微分熵公式,我们知道:
H
(
X
)
=
1
2
log
2
(
2
π
e
σ
X
2
)
H(X) = \frac{1}{2} \log_2 (2 \pi e \sigma_X^2)
H(X)=21log2(2πeσX2)
(2) Y Y Y 的微分熵
同理,
Y
Y
Y 也是一个高斯分布,因为它是
X
X
X 和高斯噪声
N
N
N 的和。根据高斯随机变量的性质,
Y
Y
Y 的方差为
σ
Y
2
=
σ
X
2
+
σ
N
2
\sigma_Y^2 = \sigma_X^2 + \sigma_N^2
σY2=σX2+σN2,所以
Y
Y
Y 的微分熵为:
H
(
Y
)
=
1
2
log
2
(
2
π
e
(
σ
X
2
+
σ
N
2
)
)
H(Y) = \frac{1}{2} \log_2 (2 \pi e (\sigma_X^2 + \sigma_N^2))
H(Y)=21log2(2πe(σX2+σN2))
(3) X ∣ Y X | Y X∣Y 的条件熵
条件熵
H
(
X
∣
Y
)
H(X | Y)
H(X∣Y) 表示在给定
Y
Y
Y 的情况下,关于
X
X
X 的剩余不确定性。由于
N
N
N 是独立的噪声,因此
X
∣
Y
X | Y
X∣Y 也是一个高斯随机变量,其方差为噪声的方差
σ
N
2
\sigma_N^2
σN2。因此,条件熵为:
H
(
X
∣
Y
)
=
1
2
log
2
(
2
π
e
σ
N
2
)
H(X | Y) = \frac{1}{2} \log_2 (2 \pi e \sigma_N^2)
H(X∣Y)=21log2(2πeσN2)
2. 互信息的计算
互信息
I
(
X
;
Y
)
I(X; Y)
I(X;Y) 的公式为:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X; Y) = H(X) - H(X | Y)
I(X;Y)=H(X)−H(X∣Y)
现在我们将上述计算的结果代入这个公式中:
I
(
X
;
Y
)
=
1
2
log
2
(
2
π
e
σ
X
2
)
−
1
2
log
2
(
2
π
e
σ
N
2
)
I(X; Y) = \frac{1}{2} \log_2 (2 \pi e \sigma_X^2) - \frac{1}{2} \log_2 (2 \pi e \sigma_N^2)
I(X;Y)=21log2(2πeσX2)−21log2(2πeσN2)
经过简化,互信息变为:
I
(
X
;
Y
)
=
1
2
log
2
(
σ
X
2
σ
N
2
)
I(X; Y) = \frac{1}{2} \log_2 \left( \frac{\sigma_X^2}{\sigma_N^2} \right)
I(X;Y)=21log2(σN2σX2)
这个结果表明,互信息取决于信号的功率 σ X 2 \sigma_X^2 σX2 和噪声的功率 σ N 2 \sigma_N^2 σN2 之比(即信噪比 SNR)。信噪比越高,互信息越大,说明可以从接收到的 Y Y Y 中提取到更多关于 X X X 的信息。
3. 解释公式
- H ( X ) H(X) H(X):这是发送信号 X X X 的熵,表示信源发送的信息量。它取决于信号的方差 σ X 2 \sigma_X^2 σX2。
- H ( X ∣ Y ) H(X | Y) H(X∣Y):这是接收到信号 Y Y Y 之后关于 X X X 的不确定性。它反映了噪声 N N N 对信号的影响,因此它取决于噪声的方差 σ N 2 \sigma_N^2 σN2。
- 互信息 I ( X ; Y ) I(X; Y) I(X;Y):表示接收信号 Y Y Y 中包含的关于 X X X 的信息量。它与信噪比 σ X 2 σ N 2 \frac{\sigma_X^2}{\sigma_N^2} σN2σX2 成正比,信噪比越大,互信息越多。
4. 信道容量
在这种 AWGN 信道中,互信息的最大值(即信道容量)对应于最佳的传输速率。这个信道容量的公式是:
C
=
1
2
log
2
(
1
+
SNR
)
C = \frac{1}{2} \log_2(1 + \text{SNR})
C=21log2(1+SNR)
其中,SNR(信噪比)为
σ
X
2
σ
N
2
\frac{\sigma_X^2}{\sigma_N^2}
σN2σX2。
总结
- 这个例子展示了如何使用微分熵和互信息的公式来计算在有噪声信道中的信息传输能力。
- 我们通过计算 X X X、 Y Y Y 和 X ∣ Y X | Y X∣Y 的微分熵,得出了 X X X 和 Y Y Y 之间的互信息,这个值反映了接收到的信号中包含多少关于发送信号的可靠信息。
- 信噪比越高,互信息越大,这表明接收端可以更准确地恢复发送端的信息。