1.信息量
信息量是指从
N
N
N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识
N
N
N个事件中特定的一个事件的过程中所需要提问是或否
的最少次数。
在一个系统中,等可能事件的数量越多,事件的发生概率也就越低,传递究竟是哪个事件发生所需的比特信号也就越多。
举个例子,假如有两个相互隔离的房间A、B,二者只能通过01信号传递信息。当A房间投掷了一个硬币时,我们至少需要使用 log 2 2 = 1 \log _22=1 log22=1个比特信号告诉B房间是正面朝上还是反面朝上。类似地,当A房间投掷了一个有8个面的骰子时,我们至少需要 log 2 8 = 3 \log _28=3 log28=3个比特的信号来传递该信息。
假如系统中有的
N
N
N个等可能事件,那么我们将
log
2
N
\log _2N
log2N称为信息量。由于等可能事件的发生概率为
1
N
\frac{1}{N}
N1,则信息量的公式可以写作
−
log
2
1
N
-\log _2\frac{1}{N}
−log2N1推而广之,假设事件
x
x
x的发生概率为
p
(
x
)
p\left( x \right)
p(x),则传递该事件发生需要的最少比特信号位(即信息量)为
−
log
2
p
(
x
)
-\log _2p\left( x \right)
−log2p(x)
2.信息熵
信息熵用于衡量整个事件空间包含的平均信息量
,即信息量的平均期望
。将事件空间中所有事件发生的概率,乘以该事件的信息量,即可得到信息熵:
H
(
x
)
=
∑
x
∈
X
p
(
x
)
⋅
(
−
log
2
p
(
x
)
)
=
−
∑
x
∈
X
p
(
x
)
⋅
log
2
p
(
x
)
H\left( x \right) =\sum_{x\in X}{p\left( x \right)}\cdot \left( -\log _2p\left( x \right) \right) =-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right)
H(x)=x∈X∑p(x)⋅(−log2p(x))=−x∈X∑p(x)⋅log2p(x)
3.联合熵
对于服从联合分布为
p
(
x
,
y
)
p\left( x,y \right)
p(x,y)的一对离散随机变量
(
X
,
Y
)
\left( X,Y \right)
(X,Y),其联合熵
(joint entropy)定义为:
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
H\left( X,Y \right) =-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}}\cdot \log _2p\left( x,y \right)
H(X,Y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x,y)
4.条件熵
表示在 X X X给定条件下, Y Y Y的条件概率分布的熵对 X X X 的数学期望
若
(
X
,
Y
)
∼
p
(
x
,
y
)
\left( X,Y \right) \sim p\left( x,y \right)
(X,Y)∼p(x,y),条件熵
(Conditional entropy)
H
(
Y
∣
X
)
H\left( \left. Y \right|X \right)
H(Y∣X)定义为:
H
(
Y
∣
X
)
=
∑
x
∈
X
p
(
x
)
⋅
H
(
Y
∣
X
=
x
)
=
−
∑
x
∈
X
p
(
x
)
∑
y
∈
Y
p
(
y
∣
x
)
⋅
log
2
p
(
y
∣
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
y
∣
x
)
\begin{aligned} H\left( \left. Y \right|X \right) &=\sum_{x\in X}{p\left( x \right)}\cdot H\left( \left. Y \right|X=x \right) =-\sum_{x\in X}{p\left( x \right)}\sum_{y\in Y}{p\left( \left. y \right|x \right)}\cdot \log _2p\left( \left. y \right|x \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( \left. y \right|x \right) \end{aligned}
H(Y∣X)=x∈X∑p(x)⋅H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)⋅log2p(y∣x)=−x∈X∑y∈Y∑p(x,y)⋅log2p(y∣x)
5.互信息
信息熵只能用于计算单个随机变量的信息量,为了量化随机变量之间的联系,需要引入互信息
(Mutual Information)的概念。互信息表示两个随机变量间相关信息的多少,即:当观测一个随机变量时,另一个随机变量的不确定性减少了多少比特。给定两个随机变量
X
X
X和
Y
Y
Y,其联合概率密度
p
(
x
,
y
)
=
P
(
X
=
x
,
Y
=
y
)
p\left( x,y \right) =P\left( X=x,Y=y \right)
p(x,y)=P(X=x,Y=y)则
X
X
X和
Y
Y
Y之间的互信息
I
(
X
,
Y
)
I(X,Y)
I(X,Y)的计算方式为:
H
(
X
)
−
H
(
X
∣
Y
)
=
−
∑
x
∈
X
p
(
x
)
⋅
log
2
p
(
x
)
−
∑
y
∈
Y
p
(
y
)
⋅
H
(
X
∣
Y
=
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
)
+
∑
y
∈
Y
p
(
y
)
∑
x
∈
X
p
(
x
∣
y
)
⋅
log
2
p
(
x
∣
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
)
+
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
p
(
y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
p
(
x
)
p
(
y
)
\begin{aligned} H\left( X \right) -H\left( X\left| Y \right. \right) &=-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) -\sum_{y\in Y}{p\left( y \right)}\cdot H\left( X\left| Y=y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{y\in Y}{p\left( y \right)}\sum_{x\in X}{p\left( x\left| y \right. \right)}·\log _2p\left( x\left| y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( x \right) p\left( y \right)} \end{aligned}
H(X)−H(X∣Y)=−x∈X∑p(x)⋅log2p(x)−y∈Y∑p(y)⋅H(X∣Y=y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x)+y∈Y∑p(y)x∈X∑p(x∣y)⋅log2p(x∣y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x)+x∈X∑y∈Y∑p(x,y)⋅log2p(y)p(x,y)=x∈X∑y∈Y∑p(x,y)⋅log2p(x)p(y)p(x,y)
6.条件互信息
若存在一个已知的随机变量
Z
Z
Z,则随机变量
X
X
X和
Y
Y
Y在
Z
Z
Z已知的情况下的条件互信息
(Conditiona Mutual Information)
I
(
X
,
Y
∣
Z
)
I\left( \left. X,Y \right|Z \right)
I(X,Y∣Z)计算方式为:
I
(
X
;
Y
∣
Z
)
=
∑
x
∈
X
∑
y
∈
Y
∑
z
∈
Z
p
(
x
,
y
,
z
)
⋅
log
p
(
z
)
p
(
x
,
y
∣
z
)
p
(
x
,
z
)
p
(
y
,
z
)
I\left( \left. X;Y \right|Z \right) =\sum_{x\in X}{\sum_{y\in Y}{\sum_{z\in Z}{p\left( x,y,z \right)}}}·\log \frac{p\left( z \right) p\left( \left. x,y \right|z \right)}{p\left( x,z \right) p\left( y,z \right)}
I(X;Y∣Z)=x∈X∑y∈Y∑z∈Z∑p(x,y,z)⋅logp(x,z)p(y,z)p(z)p(x,y∣z)或者
I
(
X
;
Y
∣
Z
)
=
∑
z
∈
Z
p
(
z
)
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
∣
z
)
⋅
log
p
(
x
,
y
∣
z
)
p
(
x
∣
z
)
p
(
y
∣
z
)
I\left( \left. X;Y \right|Z \right) =\sum_{z\in Z}{p\left( z \right)}\sum_{x\in X}{\sum_{y\in Y}{p\left( \left. x,y \right|z \right)}}·\log \frac{p\left( \left. x,y \right|z \right)}{p\left( \left. x \right|z \right) p\left( \left. y \right|z \right)}
I(X;Y∣Z)=z∈Z∑p(z)x∈X∑y∈Y∑p(x,y∣z)⋅logp(x∣z)p(y∣z)p(x,y∣z)
7. 块熵
7.1 定义
“块熵”(Block Entropy)通常用于描述信息理论中的一种概念,特别是在压缩和编码方面。它是指将数据流划分为连续的块,并对每个块计算熵的过程。
在块熵中,数据流被分割成固定大小(
k
k
k)的块(或窗口),然后对每个块应用熵的计算方法。这有助于分析数据在不同块之间的变化或随时间的演变。一般的,当
k
k
k取
1
1
1时,块熵将退化为信息熵。
H
(
X
(
k
)
)
=
−
∑
x
i
(
k
)
p
(
x
i
(
k
)
)
⋅
log
p
(
x
i
(
k
)
)
H\left( X^{\left( k \right)} \right) =-\sum_{x_{i}^{\left( k \right)}}{p\left( x_{i}^{\left( k \right)} \right) \cdot}\log p\left( x_{i}^{\left( k \right)} \right)
H(X(k))=−xi(k)∑p(xi(k))⋅logp(xi(k))在实际应用中,块熵可用于识别数据中的模式、周期性或其他结构,并有助于设计有效的压缩算法或数据处理方法。例如,在音频处理中,可以将音频信号划分为连续的时间窗口,并对每个窗口的信号进行熵计算,以了解音频信号的频谱特性或声音事件的分布。在网络数据传输中,块熵可以用于检测数据流中的重复模式或压缩数据以减少带宽消耗。
7.2 实例
假设有以下数字序列作为数据流:
d
a
t
a
_
s
t
r
e
a
m
=
[
0
,
1
,
0
,
0
,
1
,
1
,
0
,
1
,
0
,
1
]
\mathrm{data}\_\mathrm{stream}=[0, 1, 0, 0, 1, 1, 0, 1, 0, 1]
data_stream=[0,1,0,0,1,1,0,1,0,1]计算这个时间序列的块熵,其中
k
=
2
k=2
k=2。
将时间序列分成长度为
2
2
2的历史块:
第一个历史块: [0, 1]
第二个历史块: [1, 0]
第三个历史块: [0, 0]
第四个历史块: [0, 1]
第五个历史块: [1, 1]
第六个历史块: [1, 0]
第七个历史块: [0, 1]
第八个历史块: [1, 0]
第九个历史块: [0, 1]
这些历史块的分布律为:
X X X | [ 0 , 0 ] \left[ 0,0 \right] [0,0] | [ 0 , 1 ] \left[ 0,1 \right] [0,1] | [ 1 , 0 ] \left[ 1,0 \right] [1,0] | [ 1 , 1 ] \left[ 1,1 \right] [1,1] |
---|---|---|---|---|
P P P | 1 9 \frac{1}{9} 91 | 4 9 \frac{4}{9} 94 | 3 9 \frac{3}{9} 93 | 1 9 \frac{1}{9} 91 |
因此该序列的块熵为:
H
(
X
(
2
)
)
=
−
(
1
9
log
2
1
9
+
4
9
log
2
4
9
+
3
9
log
2
3
9
+
1
9
log
2
1
9
)
=
1.75272
H(X^{(2)})=-\left( \frac{1}{9}\log _2\frac{1}{9}+\frac{4}{9}\log _2\frac{4}{9}+\frac{3}{9}\log _2\frac{3}{9}+\frac{1}{9}\log _2\frac{1}{9} \right) =1.75272
H(X(2))=−(91log291+94log294+93log293+91log291)=1.75272
7.3 程序示例
from pyinform.blockentropy import block_entropy
data_stream = [0, 1, 0, 0, 1, 1, 0, 1, 0, 1]
block_entropy = block_entropy(data_stream, k=2)
print(block_entropy)
输出结果:
1.7527152789797045
8. 相对熵
8.1 定义
相对熵(Relative Entropy),也称为KL散度(Kullback-Leibler Divergence),是信息论中一种用于衡量两个概率分布之间差异的指标。它衡量的是当用一个概率分布来近似另一个概率分布时,产生的信息损失或额外的信息量,是两个概率分布间差异的非对称性度量
。在信息理论中,相对熵等价于两个概率分布的信息熵的差值
给定两个离散概率分布
P
(
x
)
P(x)
P(x)和
Q
(
x
)
Q(x)
Q(x),它们对应于事件或随机变量
x
x
x,相对熵的公式为:
D
K
L
(
P
∣
∣
Q
)
=
∑
x
∈
X
P
(
x
)
⋅
log
P
(
x
)
Q
(
x
)
D_{KL}(P||Q)=\sum_{x\in X}{P(x)\cdot \log \frac{P(x)}{Q(x)}}
DKL(P∣∣Q)=x∈X∑P(x)⋅logQ(x)P(x)这个公式的直观解释是,对于每个事件
x
x
x,计算
P
(
x
)
P(x)
P(x)与
Q
(
x
)
Q(x)
Q(x)之间的差异,并用
P
(
x
)
P(x)
P(x)的概率权重加权。如果
P
(
x
)
=
Q
(
x
)
P(x) = Q(x)
P(x)=Q(x),则相对熵为
0
0
0,表示两个分布完全相同;否则,相对熵会大于
0
0
0,表示两个分布之间的差异程度。
在机器学习和统计学中,相对熵经常用于衡量模型预测分布与真实分布之间的差异,或者用于优化问题中的正则化项。
8.2 实例
假设有两个序列:
X
=
[
1
,
1
,
2
,
2
,
3
,
3
,
4
,
4
]
Y
=
[
1
,
1
,
1
,
1
,
2
,
2
,
3
,
4
]
X=[1, 1, 2, 2, 3, 3, 4, 4]\\ Y=[1, 1, 1, 1, 2, 2, 3, 4]
X=[1,1,2,2,3,3,4,4]Y=[1,1,1,1,2,2,3,4]
则两个序列的分布律分别为:
P
(
x
)
=
[
1
4
,
1
4
,
1
4
,
1
4
]
Q
(
y
)
=
[
1
2
,
1
4
,
1
8
,
1
8
]
P(x)=\left[ \frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4} \right] \\ \ \ \\ Q(y)=\left[ \frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8} \right]
P(x)=[41,41,41,41] Q(y)=[21,41,81,81]
则两者的相对熵为:
D
K
L
(
P
∣
∣
Q
)
=
1
4
log
2
1
4
1
2
+
1
4
log
2
1
4
1
4
+
1
4
log
2
1
4
1
8
+
1
4
log
2
1
4
1
8
=
1
4
log
2
1
2
+
1
4
log
2
1
+
1
4
log
2
2
+
1
4
log
2
2
=
1
4
\begin{aligned} D_{KL}(P||Q)&=\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{2}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{4}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{8}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{8}} \\ &=\frac{1}{4}\log _2\frac{1}{2}+\frac{1}{4}\log _21+\frac{1}{4}\log _22+\frac{1}{4}\log _22 \\ &=\frac{1}{4} \end{aligned}
DKL(P∣∣Q)=41log22141+41log24141+41log28141+41log28141=41log221+41log21+41log22+41log22=41
8.3 程序示例
from pyinform.relativeentropy import relative_entropy
xs = [1, 1, 2, 2, 3, 3, 4, 4]
ys = [1, 1, 1, 1, 2, 2, 3, 4]
relative_entropy = relative_entropy(xs, ys)
print(relative_entropy)
输出结果:
0.25
9. 转移熵
转移熵(Transfer entropy)(也可译为传递熵),是衡量两个随机过程之间有向(时间不对称)信息传递量的非参数统计量。过程
X
X
X到过程
Y
Y
Y的转移熵是指在给定过去值
Y
Y
Y得到过去值
X
X
X时,
Y
Y
Y值不确定性的减少量。
随机变量
X
t
X_t
Xt的信息来源有两个:一是系统变量
X
X
X本身历史信息的贡献,二是系统中其他变量
Y
Y
Y的贡献。
t
t
t时刻,变量的值定义为:
X
t
X_t
Xt、
Y
t
Y_t
Yt
过去时间窗口
Δ
ω
\varDelta \omega
Δω内的序列为:
Y
t
−
Δ
ω
:
t
−
1
Y_{t-\varDelta \omega :t-1}
Yt−Δω:t−1
已知
Y
Y
Y的过去来推断
Y
Y
Y定义为:
H
(
Y
t
∣
Y
t
−
Δ
ω
:
t
−
1
)
H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1} \right)
H(Yt∣Yt−Δω:t−1)
已知
X
X
X的过去来推断
X
X
X定义为:
H
(
X
t
∣
X
t
−
Δ
τ
:
t
−
1
)
H\left( \left. X_t \right|X_{t-\varDelta \tau :t-1} \right)
H(Xt∣Xt−Δτ:t−1)
把已知
X
X
X的过去和
Y
Y
Y的过去来推断
Y
Y
Y定义为
H
(
Y
t
∣
Y
t
−
Δ
ω
:
t
−
1
,
X
t
−
Δ
τ
:
t
−
1
)
H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right)
H(Yt∣Yt−Δω:t−1,Xt−Δτ:t−1)
过程
X
X
X到过程
Y
Y
Y的转移熵是指在给定过去值
Y
Y
Y得到过去值
X
X
X时,
Y
Y
Y值不确定性的减少量:
T
(
X
→
Y
)
=
H
(
Y
t
∣
Y
t
−
Δ
ω
:
t
−
1
)
−
H
(
Y
t
∣
Y
t
−
Δ
ω
:
t
−
1
,
X
t
−
Δ
τ
:
t
−
1
)
=
H
(
Y
t
,
Y
t
−
Δ
ω
:
t
−
1
)
−
H
(
Y
t
−
Δ
ω
:
t
−
1
)
−
H
(
Y
t
,
Y
t
−
Δ
ω
:
t
−
1
,
X
t
−
Δ
τ
:
t
−
1
)
+
H
(
Y
t
−
Δ
ω
:
t
−
1
,
X
t
−
Δ
τ
:
t
−
1
)
=
H
(
Y
t
,
Y
t
−
Δ
ω
:
t
−
1
)
+
H
(
Y
t
−
Δ
ω
:
t
−
1
,
X
t
−
Δ
τ
:
t
−
1
)
−
H
(
Y
t
−
Δ
ω
:
t
−
1
)
−
H
(
Y
t
,
Y
t
−
Δ
ω
:
t
−
1
,
X
t
−
Δ
τ
:
t
−
1
)
=
∑
X
τ
,
Y
t
,
Y
ω
p
(
X
τ
,
Y
t
,
Y
ω
)
⋅
log
p
(
X
τ
,
Y
t
,
Y
ω
)
p
(
Y
ω
)
p
(
X
τ
,
Y
ω
)
p
(
Y
t
,
Y
ω
)
=
∑
X
τ
,
Y
t
,
Y
ω
p
(
X
τ
,
Y
t
,
Y
ω
)
⋅
log
p
(
Y
t
∣
X
τ
,
Y
ω
)
p
(
Y
t
∣
Y
ω
)
\begin{aligned} T\left( X\rightarrow Y \right) &=H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1} \right) -H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=H\left( Y_t,Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_t,Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) +H\left( Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=H\left( Y_t,Y_{t-\varDelta \omega :t-1} \right) +H\left( Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) -H\left( Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_t,Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=\sum_{X_{\tau},Y_t,Y_{\omega}}{p}\left( X_{\tau},Y_t,Y_{\omega} \right) \cdot \log \frac{p\left( X_{\tau},Y_t,Y_{\omega} \right) p\left( Y_{\omega} \right)}{p\left( X_{\tau},Y_{\omega} \right) p\left( Y_t,Y_{\omega} \right)} \\ &=\sum_{X_{\tau},Y_t,Y_{\omega}}{p}\left( X_{\tau},Y_t,Y_{\omega} \right) \cdot \log \frac{p\left( Y_t\left| X_{\tau},Y_{\omega} \right. \right)}{p\left( Y_t\left| Y_{\omega} \right. \right)} \end{aligned}
T(X→Y)=H(Yt∣Yt−Δω:t−1)−H(Yt∣Yt−Δω:t−1,Xt−Δτ:t−1)=H(Yt,Yt−Δω:t−1)−H(Yt−Δω:t−1)−H(Yt,Yt−Δω:t−1,Xt−Δτ:t−1)+H(Yt−Δω:t−1,Xt−Δτ:t−1)=H(Yt,Yt−Δω:t−1)+H(Yt−Δω:t−1,Xt−Δτ:t−1)−H(Yt−Δω:t−1)−H(Yt,Yt−Δω:t−1,Xt−Δτ:t−1)=Xτ,Yt,Yω∑p(Xτ,Yt,Yω)⋅logp(Xτ,Yω)p(Yt,Yω)p(Xτ,Yt,Yω)p(Yω)=Xτ,Yt,Yω∑p(Xτ,Yt,Yω)⋅logp(Yt∣Yω)p(Yt∣Xτ,Yω)
转移熵很好地刻画了系统中两个变量之间的信息流动,但是这样得到的信息流动有可能不是本质的,因为转移熵并没有考虑到冗余和协同作用。
10.关系推导
10.1 联合熵与条件熵关系
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
H\left( \left. X \right|Y \right) =H\left( X,Y \right) -H\left( Y \right)
H(X∣Y)=H(X,Y)−H(Y)推导过程如下:
H
(
Y
∣
X
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
y
∣
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
p
(
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
+
∑
y
∈
Y
(
∑
x
∈
X
p
(
x
,
y
)
)
⋅
log
2
p
(
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
+
∑
y
∈
Y
p
(
y
)
⋅
log
2
p
(
y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
\begin{aligned} H\left( \left. Y \right|X \right) &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( \left. y \right|x \right) =-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( x,y \right) +\sum_{y\in Y}{\left( \sum_{x\in X}{p\left( x,y \right)} \right)}·\log _2p\left( y \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( x,y \right) +\sum_{y\in Y}{p\left( y \right)}·\log _2p\left( y \right) \\ &=H\left( X,Y \right) -H\left( Y \right) \end{aligned}
H(Y∣X)=−x∈X∑y∈Y∑p(x,y)⋅log2p(y∣x)=−x∈X∑y∈Y∑p(x,y)⋅log2p(y)p(x,y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x,y)+y∈Y∑(x∈X∑p(x,y))⋅log2p(y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x,y)+y∈Y∑p(y)⋅log2p(y)=H(X,Y)−H(Y)同理可得:
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
H\left( \left. Y \right|X \right) =H\left( X,Y \right) -H\left( X \right)
H(Y∣X)=H(X,Y)−H(X)
10.2 互信息的对称性
I
(
X
;
Y
)
=
I
(
Y
;
X
)
I\left( X;Y \right) =I\left( Y;X \right)
I(X;Y)=I(Y;X)推导过程如下:
H
(
X
)
−
H
(
X
∣
Y
)
=
−
∑
x
∈
X
p
(
x
)
⋅
log
2
p
(
x
)
−
∑
y
∈
Y
p
(
y
)
⋅
H
(
X
∣
Y
=
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
)
+
∑
y
∈
Y
p
(
y
)
∑
x
∈
X
p
(
x
∣
y
)
⋅
log
2
p
(
x
∣
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
)
+
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
p
(
y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
y
)
+
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
x
,
y
)
p
(
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
⋅
log
2
p
(
y
)
+
∑
x
∈
X
p
(
x
)
∑
y
∈
Y
p
(
y
∣
x
)
⋅
log
2
p
(
y
∣
x
)
=
−
∑
y
∈
Y
p
(
y
)
⋅
log
2
p
(
y
)
−
∑
x
∈
X
p
(
x
)
⋅
H
(
Y
∣
X
=
x
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
\begin{aligned} H\left( X \right) -H\left( X\left| Y \right. \right) &=-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) -\sum_{y\in Y}{p\left( y \right)}\cdot H\left( X\left| Y=y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{y\in Y}{p\left( y \right)}\sum_{x\in X}{p\left( x\left| y \right. \right) \cdot}\log _2p\left( x\left| y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}\cdot \log _2}\frac{p\left( x,y \right)}{p\left( x \right) p\left( y \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( y \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}\cdot \log _2}\frac{p\left( x,y \right)}{p\left( x \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( y \right) +\sum_{x\in X}{p\left( x \right) \sum_{y\in Y}{p\left( \left. y \right|x \right)}\cdot \log _2}p\left( \left. y \right|x \right) \\ &=-\sum_{y\in Y}{p\left( y \right) \cdot \log _2}p\left( y \right) -\sum_{x\in X}{p}\left( x \right) \cdot H\left( Y\left| X=x \right. \right) \\ &=H\left( Y \right) -H\left( \left. Y \right|X \right) \end{aligned}
H(X)−H(X∣Y)=−x∈X∑p(x)⋅log2p(x)−y∈Y∑p(y)⋅H(X∣Y=y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x)+y∈Y∑p(y)x∈X∑p(x∣y)⋅log2p(x∣y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x)+x∈X∑y∈Y∑p(x,y)⋅log2p(y)p(x,y)=x∈X∑y∈Y∑p(x,y)⋅log2p(x)p(y)p(x,y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(y)+x∈X∑y∈Y∑p(x,y)⋅log2p(x)p(x,y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(y)+x∈X∑p(x)y∈Y∑p(y∣x)⋅log2p(y∣x)=−y∈Y∑p(y)⋅log2p(y)−x∈X∑p(x)⋅H(Y∣X=x)=H(Y)−H(Y∣X)
10.3 联合熵与互信息关系
由7.1和7.2可得:
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
=
H
(
X
)
−
I
(
X
;
Y
)
H\left( \left. X \right|Y \right) =H\left( X,Y \right) -H\left( Y \right) =H\left( X \right) -I\left( X;Y \right)
H(X∣Y)=H(X,Y)−H(Y)=H(X)−I(X;Y)于是:
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
−
I
(
X
;
Y
)
H\left( X,Y \right) =H\left( X \right) +H\left( Y \right) -I\left( X;Y \right)
H(X,Y)=H(X)+H(Y)−I(X;Y)上述关系还可由韦恩图给出: