信息测度:信息熵、联合熵、条件熵、互信息、条件互信息、块熵、相对熵、转移熵

1.信息量

信息量是指从 N N N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识 N N N个事件中特定的一个事件的过程中所需要提问是或否的最少次数。

在一个系统中,等可能事件的数量越多,事件的发生概率也就越低,传递究竟是哪个事件发生所需的比特信号也就越多。

举个例子,假如有两个相互隔离的房间A、B,二者只能通过01信号传递信息。当A房间投掷了一个硬币时,我们至少需要使用 log ⁡ 2 2 = 1 \log _22=1 log22=1个比特信号告诉B房间是正面朝上还是反面朝上。类似地,当A房间投掷了一个有8个面的骰子时,我们至少需要 log ⁡ 2 8 = 3 \log _28=3 log28=3个比特的信号来传递该信息。

假如系统中有的 N N N个等可能事件,那么我们将 log ⁡ 2 N \log _2N log2N称为信息量。由于等可能事件的发生概率为 1 N \frac{1}{N} N1,则信息量的公式可以写作
− log ⁡ 2 1 N -\log _2\frac{1}{N} log2N1推而广之,假设事件 x x x的发生概率为 p ( x ) p\left( x \right) p(x),则传递该事件发生需要的最少比特信号位(即信息量)为 − log ⁡ 2 p ( x ) -\log _2p\left( x \right) log2p(x)

2.信息熵

信息熵用于衡量整个事件空间包含的平均信息量,即信息量的平均期望。将事件空间中所有事件发生的概率,乘以该事件的信息量,即可得到信息熵:
H ( x ) = ∑ x ∈ X p ( x ) ⋅ ( − log ⁡ 2 p ( x ) ) = − ∑ x ∈ X p ( x ) ⋅ log ⁡ 2 p ( x ) H\left( x \right) =\sum_{x\in X}{p\left( x \right)}\cdot \left( -\log _2p\left( x \right) \right) =-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) H(x)=xXp(x)(log2p(x))=xXp(x)log2p(x)

3.联合熵

对于服从联合分布为 p ( x , y ) p\left( x,y \right) p(x,y)的一对离散随机变量 ( X , Y ) \left( X,Y \right) (X,Y),其联合熵(joint entropy)定义为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) H\left( X,Y \right) =-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}}\cdot \log _2p\left( x,y \right) H(X,Y)=xXyYp(x,y)log2p(x,y)

4.条件熵

表示在 X X X给定条件下, Y Y Y的条件概率分布的熵对 X X X 的数学期望

( X , Y ) ∼ p ( x , y ) \left( X,Y \right) \sim p\left( x,y \right) (X,Y)p(x,y)条件熵(Conditional entropy) H ( Y ∣ X ) H\left( \left. Y \right|X \right) H(YX)定义为:
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) ⋅ H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) ⋅ log ⁡ 2 p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( y ∣ x ) \begin{aligned} H\left( \left. Y \right|X \right) &=\sum_{x\in X}{p\left( x \right)}\cdot H\left( \left. Y \right|X=x \right) =-\sum_{x\in X}{p\left( x \right)}\sum_{y\in Y}{p\left( \left. y \right|x \right)}\cdot \log _2p\left( \left. y \right|x \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( \left. y \right|x \right) \end{aligned} H(YX)=xXp(x)H(YX=x)=xXp(x)yYp(yx)log2p(yx)=xXyYp(x,y)log2p(yx)

5.互信息

信息熵只能用于计算单个随机变量的信息量,为了量化随机变量之间的联系,需要引入互信息(Mutual Information)的概念。互信息表示两个随机变量间相关信息的多少,即:当观测一个随机变量时,另一个随机变量的不确定性减少了多少比特。给定两个随机变量 X X X Y Y Y,其联合概率密度 p ( x , y ) = P ( X = x , Y = y ) p\left( x,y \right) =P\left( X=x,Y=y \right) p(x,y)=P(X=x,Y=y) X X X Y Y Y之间的互信息 I ( X , Y ) I(X,Y) I(X,Y)的计算方式为:
H ( X ) − H ( X ∣ Y ) = − ∑ x ∈ X p ( x ) ⋅ log ⁡ 2 p ( x ) − ∑ y ∈ Y p ( y ) ⋅ H ( X ∣ Y = y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x ) + ∑ y ∈ Y p ( y ) ∑ x ∈ X p ( x ∣ y ) ⋅ log ⁡ 2 p ( x ∣ y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x ) + ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) p ( y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) p ( x ) p ( y ) \begin{aligned} H\left( X \right) -H\left( X\left| Y \right. \right) &=-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) -\sum_{y\in Y}{p\left( y \right)}\cdot H\left( X\left| Y=y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{y\in Y}{p\left( y \right)}\sum_{x\in X}{p\left( x\left| y \right. \right)}·\log _2p\left( x\left| y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( x \right) p\left( y \right)} \end{aligned} H(X)H(XY)=xXp(x)log2p(x)yYp(y)H(XY=y)=xXyYp(x,y)log2p(x)+yYp(y)xXp(xy)log2p(xy)=xXyYp(x,y)log2p(x)+xXyYp(x,y)log2p(y)p(x,y)=xXyYp(x,y)log2p(x)p(y)p(x,y)

6.条件互信息

若存在一个已知的随机变量 Z Z Z,则随机变量 X X X Y Y Y Z Z Z已知的情况下的条件互信息(Conditiona Mutual Information) I ( X , Y ∣ Z ) I\left( \left. X,Y \right|Z \right) I(X,YZ)计算方式为:
I ( X ; Y ∣ Z ) = ∑ x ∈ X ∑ y ∈ Y ∑ z ∈ Z p ( x , y , z ) ⋅ log ⁡ p ( z ) p ( x , y ∣ z ) p ( x , z ) p ( y , z ) I\left( \left. X;Y \right|Z \right) =\sum_{x\in X}{\sum_{y\in Y}{\sum_{z\in Z}{p\left( x,y,z \right)}}}·\log \frac{p\left( z \right) p\left( \left. x,y \right|z \right)}{p\left( x,z \right) p\left( y,z \right)} I(X;YZ)=xXyYzZp(x,y,z)logp(x,z)p(y,z)p(z)p(x,yz)或者
I ( X ; Y ∣ Z ) = ∑ z ∈ Z p ( z ) ∑ x ∈ X ∑ y ∈ Y p ( x , y ∣ z ) ⋅ log ⁡ p ( x , y ∣ z ) p ( x ∣ z ) p ( y ∣ z ) I\left( \left. X;Y \right|Z \right) =\sum_{z\in Z}{p\left( z \right)}\sum_{x\in X}{\sum_{y\in Y}{p\left( \left. x,y \right|z \right)}}·\log \frac{p\left( \left. x,y \right|z \right)}{p\left( \left. x \right|z \right) p\left( \left. y \right|z \right)} I(X;YZ)=zZp(z)xXyYp(x,yz)logp(xz)p(yz)p(x,yz)

7. 块熵

7.1 定义

“块熵”(Block Entropy)通常用于描述信息理论中的一种概念,特别是在压缩和编码方面。它是指将数据流划分为连续的块,并对每个块计算熵的过程。

在块熵中,数据流被分割成固定大小( k k k)的块(或窗口),然后对每个块应用熵的计算方法。这有助于分析数据在不同块之间的变化或随时间的演变。一般的,当 k k k 1 1 1时,块熵将退化为信息熵。
H ( X ( k ) ) = − ∑ x i ( k ) p ( x i ( k ) ) ⋅ log ⁡ p ( x i ( k ) ) H\left( X^{\left( k \right)} \right) =-\sum_{x_{i}^{\left( k \right)}}{p\left( x_{i}^{\left( k \right)} \right) \cdot}\log p\left( x_{i}^{\left( k \right)} \right) H(X(k))=xi(k)p(xi(k))logp(xi(k))在实际应用中,块熵可用于识别数据中的模式、周期性或其他结构,并有助于设计有效的压缩算法或数据处理方法。例如,在音频处理中,可以将音频信号划分为连续的时间窗口,并对每个窗口的信号进行熵计算,以了解音频信号的频谱特性或声音事件的分布。在网络数据传输中,块熵可以用于检测数据流中的重复模式或压缩数据以减少带宽消耗。

7.2 实例

假设有以下数字序列作为数据流: d a t a _ s t r e a m = [ 0 , 1 , 0 , 0 , 1 , 1 , 0 , 1 , 0 , 1 ] \mathrm{data}\_\mathrm{stream}=[0, 1, 0, 0, 1, 1, 0, 1, 0, 1] data_stream=[0,1,0,0,1,1,0,1,0,1]计算这个时间序列的块熵,其中 k = 2 k=2 k=2
将时间序列分成长度为 2 2 2的历史块:
第一个历史块: [0, 1]
第二个历史块: [1, 0]
第三个历史块: [0, 0]
第四个历史块: [0, 1]
第五个历史块: [1, 1]
第六个历史块: [1, 0]
第七个历史块: [0, 1]
第八个历史块: [1, 0]
第九个历史块: [0, 1]
这些历史块的分布律为:

X X X [ 0 , 0 ] \left[ 0,0 \right] [0,0] [ 0 , 1 ] \left[ 0,1 \right] [0,1] [ 1 , 0 ] \left[ 1,0 \right] [1,0] [ 1 , 1 ] \left[ 1,1 \right] [1,1]
P P P 1 9 \frac{1}{9} 91 4 9 \frac{4}{9} 94 3 9 \frac{3}{9} 93 1 9 \frac{1}{9} 91

因此该序列的块熵为:
H ( X ( 2 ) ) = − ( 1 9 log ⁡ 2 1 9 + 4 9 log ⁡ 2 4 9 + 3 9 log ⁡ 2 3 9 + 1 9 log ⁡ 2 1 9 ) = 1.75272 H(X^{(2)})=-\left( \frac{1}{9}\log _2\frac{1}{9}+\frac{4}{9}\log _2\frac{4}{9}+\frac{3}{9}\log _2\frac{3}{9}+\frac{1}{9}\log _2\frac{1}{9} \right) =1.75272 H(X(2))=(91log291+94log294+93log293+91log291)=1.75272

7.3 程序示例

from pyinform.blockentropy import block_entropy

data_stream = [0, 1, 0, 0, 1, 1, 0, 1, 0, 1]
block_entropy = block_entropy(data_stream, k=2)
print(block_entropy)

输出结果:

1.7527152789797045

8. 相对熵

8.1 定义

相对熵(Relative Entropy),也称为KL散度(Kullback-Leibler Divergence),是信息论中一种用于衡量两个概率分布之间差异的指标。它衡量的是当用一个概率分布来近似另一个概率分布时,产生的信息损失或额外的信息量,是两个概率分布间差异的非对称性度量。在信息理论中,相对熵等价于两个概率分布的信息熵的差值
给定两个离散概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x),它们对应于事件或随机变量 x x x,相对熵的公式为:
D K L ( P ∣ ∣ Q ) = ∑ x ∈ X P ( x ) ⋅ log ⁡ P ( x ) Q ( x ) D_{KL}(P||Q)=\sum_{x\in X}{P(x)\cdot \log \frac{P(x)}{Q(x)}} DKL(P∣∣Q)=xXP(x)logQ(x)P(x)这个公式的直观解释是,对于每个事件 x x x,计算 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x)之间的差异,并用 P ( x ) P(x) P(x)的概率权重加权。如果 P ( x ) = Q ( x ) P(x) = Q(x) P(x)=Q(x),则相对熵为 0 0 0,表示两个分布完全相同;否则,相对熵会大于 0 0 0,表示两个分布之间的差异程度。
在机器学习和统计学中,相对熵经常用于衡量模型预测分布与真实分布之间的差异,或者用于优化问题中的正则化项。

8.2 实例

假设有两个序列:
X = [ 1 , 1 , 2 , 2 , 3 , 3 , 4 , 4 ] Y = [ 1 , 1 , 1 , 1 , 2 , 2 , 3 , 4 ] X=[1, 1, 2, 2, 3, 3, 4, 4]\\ Y=[1, 1, 1, 1, 2, 2, 3, 4] X=[1,1,2,2,3,3,4,4]Y=[1,1,1,1,2,2,3,4]
则两个序列的分布律分别为:
P ( x ) = [ 1 4 , 1 4 , 1 4 , 1 4 ]    Q ( y ) = [ 1 2 , 1 4 , 1 8 , 1 8 ] P(x)=\left[ \frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4} \right] \\ \ \ \\ Q(y)=\left[ \frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8} \right] P(x)=[41,41,41,41]  Q(y)=[21,41,81,81]
则两者的相对熵为:
D K L ( P ∣ ∣ Q ) = 1 4 log ⁡ 2 1 4 1 2 + 1 4 log ⁡ 2 1 4 1 4 + 1 4 log ⁡ 2 1 4 1 8 + 1 4 log ⁡ 2 1 4 1 8 = 1 4 log ⁡ 2 1 2 + 1 4 log ⁡ 2 1 + 1 4 log ⁡ 2 2 + 1 4 log ⁡ 2 2 = 1 4 \begin{aligned} D_{KL}(P||Q)&=\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{2}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{4}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{8}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{8}} \\ &=\frac{1}{4}\log _2\frac{1}{2}+\frac{1}{4}\log _21+\frac{1}{4}\log _22+\frac{1}{4}\log _22 \\ &=\frac{1}{4} \end{aligned} DKL(P∣∣Q)=41log22141+41log24141+41log28141+41log28141=41log221+41log21+41log22+41log22=41

8.3 程序示例

from pyinform.relativeentropy import relative_entropy

xs = [1, 1, 2, 2, 3, 3, 4, 4]
ys = [1, 1, 1, 1, 2, 2, 3, 4]
relative_entropy = relative_entropy(xs, ys)
print(relative_entropy)

输出结果:

0.25

9. 转移熵

转移熵(Transfer entropy)(也可译为传递熵),是衡量两个随机过程之间有向(时间不对称)信息传递量的非参数统计量。过程 X X X到过程 Y Y Y的转移熵是指在给定过去值 Y Y Y得到过去值 X X X时, Y Y Y值不确定性的减少量。
随机变量 X t X_t Xt的信息来源有两个:一是系统变量 X X X本身历史信息的贡献,二是系统中其他变量 Y Y Y的贡献。
t t t时刻,变量的值定义为: X t X_t Xt Y t Y_t Yt
过去时间窗口 Δ ω \varDelta \omega Δω内的序列为: Y t − Δ ω : t − 1 Y_{t-\varDelta \omega :t-1} YtΔω:t1
已知 Y Y Y的过去来推断 Y Y Y定义为: H ( Y t ∣ Y t − Δ ω : t − 1 ) H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1} \right) H(YtYtΔω:t1)
已知 X X X的过去来推断 X X X定义为: H ( X t ∣ X t − Δ τ : t − 1 ) H\left( \left. X_t \right|X_{t-\varDelta \tau :t-1} \right) H(XtXtΔτ:t1)
把已知 X X X的过去和 Y Y Y的过去来推断 Y Y Y定义为 H ( Y t ∣ Y t − Δ ω : t − 1 , X t − Δ τ : t − 1 ) H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) H(YtYtΔω:t1,XtΔτ:t1)
过程 X X X到过程 Y Y Y的转移熵是指在给定过去值 Y Y Y得到过去值 X X X时, Y Y Y值不确定性的减少量:
T ( X → Y ) = H ( Y t ∣ Y t − Δ ω : t − 1 ) − H ( Y t ∣ Y t − Δ ω : t − 1 , X t − Δ τ : t − 1 ) = H ( Y t , Y t − Δ ω : t − 1 ) − H ( Y t − Δ ω : t − 1 ) − H ( Y t , Y t − Δ ω : t − 1 , X t − Δ τ : t − 1 ) + H ( Y t − Δ ω : t − 1 , X t − Δ τ : t − 1 ) = H ( Y t , Y t − Δ ω : t − 1 ) + H ( Y t − Δ ω : t − 1 , X t − Δ τ : t − 1 ) − H ( Y t − Δ ω : t − 1 ) − H ( Y t , Y t − Δ ω : t − 1 , X t − Δ τ : t − 1 ) = ∑ X τ , Y t , Y ω p ( X τ , Y t , Y ω ) ⋅ log ⁡ p ( X τ , Y t , Y ω ) p ( Y ω ) p ( X τ , Y ω ) p ( Y t , Y ω ) = ∑ X τ , Y t , Y ω p ( X τ , Y t , Y ω ) ⋅ log ⁡ p ( Y t ∣ X τ , Y ω ) p ( Y t ∣ Y ω ) \begin{aligned} T\left( X\rightarrow Y \right) &=H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1} \right) -H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=H\left( Y_t,Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_t,Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) +H\left( Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=H\left( Y_t,Y_{t-\varDelta \omega :t-1} \right) +H\left( Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) -H\left( Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_t,Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=\sum_{X_{\tau},Y_t,Y_{\omega}}{p}\left( X_{\tau},Y_t,Y_{\omega} \right) \cdot \log \frac{p\left( X_{\tau},Y_t,Y_{\omega} \right) p\left( Y_{\omega} \right)}{p\left( X_{\tau},Y_{\omega} \right) p\left( Y_t,Y_{\omega} \right)} \\ &=\sum_{X_{\tau},Y_t,Y_{\omega}}{p}\left( X_{\tau},Y_t,Y_{\omega} \right) \cdot \log \frac{p\left( Y_t\left| X_{\tau},Y_{\omega} \right. \right)}{p\left( Y_t\left| Y_{\omega} \right. \right)} \end{aligned} T(XY)=H(YtYtΔω:t1)H(YtYtΔω:t1,XtΔτ:t1)=H(Yt,YtΔω:t1)H(YtΔω:t1)H(Yt,YtΔω:t1,XtΔτ:t1)+H(YtΔω:t1,XtΔτ:t1)=H(Yt,YtΔω:t1)+H(YtΔω:t1,XtΔτ:t1)H(YtΔω:t1)H(Yt,YtΔω:t1,XtΔτ:t1)=Xτ,Yt,Yωp(Xτ,Yt,Yω)logp(Xτ,Yω)p(Yt,Yω)p(Xτ,Yt,Yω)p(Yω)=Xτ,Yt,Yωp(Xτ,Yt,Yω)logp(YtYω)p(YtXτ,Yω)

转移熵很好地刻画了系统中两个变量之间的信息流动,但是这样得到的信息流动有可能不是本质的,因为转移熵并没有考虑到冗余和协同作用。

10.关系推导

10.1 联合熵与条件熵关系

H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H\left( \left. X \right|Y \right) =H\left( X,Y \right) -H\left( Y \right) H(XY)=H(X,Y)H(Y)推导过程如下:
H ( Y ∣ X ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) p ( y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) + ∑ y ∈ Y ( ∑ x ∈ X p ( x , y ) ) ⋅ log ⁡ 2 p ( y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) + ∑ y ∈ Y p ( y ) ⋅ log ⁡ 2 p ( y ) = H ( X , Y ) − H ( Y ) \begin{aligned} H\left( \left. Y \right|X \right) &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( \left. y \right|x \right) =-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( x,y \right) +\sum_{y\in Y}{\left( \sum_{x\in X}{p\left( x,y \right)} \right)}·\log _2p\left( y \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( x,y \right) +\sum_{y\in Y}{p\left( y \right)}·\log _2p\left( y \right) \\ &=H\left( X,Y \right) -H\left( Y \right) \end{aligned} H(YX)=xXyYp(x,y)log2p(yx)=xXyYp(x,y)log2p(y)p(x,y)=xXyYp(x,y)log2p(x,y)+yY(xXp(x,y))log2p(y)=xXyYp(x,y)log2p(x,y)+yYp(y)log2p(y)=H(X,Y)H(Y)同理可得:
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H\left( \left. Y \right|X \right) =H\left( X,Y \right) -H\left( X \right) H(YX)=H(X,Y)H(X)

10.2 互信息的对称性

I ( X ; Y ) = I ( Y ; X ) I\left( X;Y \right) =I\left( Y;X \right) I(X;Y)=I(Y;X)推导过程如下:
H ( X ) − H ( X ∣ Y ) = − ∑ x ∈ X p ( x ) ⋅ log ⁡ 2 p ( x ) − ∑ y ∈ Y p ( y ) ⋅ H ( X ∣ Y = y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x ) + ∑ y ∈ Y p ( y ) ∑ x ∈ X p ( x ∣ y ) ⋅ log ⁡ 2 p ( x ∣ y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x ) + ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) p ( y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) p ( x ) p ( y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( y ) + ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( x , y ) p ( x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log ⁡ 2 p ( y ) + ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) ⋅ log ⁡ 2 p ( y ∣ x ) = − ∑ y ∈ Y p ( y ) ⋅ log ⁡ 2 p ( y ) − ∑ x ∈ X p ( x ) ⋅ H ( Y ∣ X = x ) = H ( Y ) − H ( Y ∣ X ) \begin{aligned} H\left( X \right) -H\left( X\left| Y \right. \right) &=-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) -\sum_{y\in Y}{p\left( y \right)}\cdot H\left( X\left| Y=y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{y\in Y}{p\left( y \right)}\sum_{x\in X}{p\left( x\left| y \right. \right) \cdot}\log _2p\left( x\left| y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}\cdot \log _2}\frac{p\left( x,y \right)}{p\left( x \right) p\left( y \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( y \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}\cdot \log _2}\frac{p\left( x,y \right)}{p\left( x \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( y \right) +\sum_{x\in X}{p\left( x \right) \sum_{y\in Y}{p\left( \left. y \right|x \right)}\cdot \log _2}p\left( \left. y \right|x \right) \\ &=-\sum_{y\in Y}{p\left( y \right) \cdot \log _2}p\left( y \right) -\sum_{x\in X}{p}\left( x \right) \cdot H\left( Y\left| X=x \right. \right) \\ &=H\left( Y \right) -H\left( \left. Y \right|X \right) \end{aligned} H(X)H(XY)=xXp(x)log2p(x)yYp(y)H(XY=y)=xXyYp(x,y)log2p(x)+yYp(y)xXp(xy)log2p(xy)=xXyYp(x,y)log2p(x)+xXyYp(x,y)log2p(y)p(x,y)=xXyYp(x,y)log2p(x)p(y)p(x,y)=xXyYp(x,y)log2p(y)+xXyYp(x,y)log2p(x)p(x,y)=xXyYp(x,y)log2p(y)+xXp(x)yYp(yx)log2p(yx)=yYp(y)log2p(y)xXp(x)H(YX=x)=H(Y)H(YX)

10.3 联合熵与互信息关系

由7.1和7.2可得:
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) = H ( X ) − I ( X ; Y ) H\left( \left. X \right|Y \right) =H\left( X,Y \right) -H\left( Y \right) =H\left( X \right) -I\left( X;Y \right) H(XY)=H(X,Y)H(Y)=H(X)I(X;Y)于是:
H ( X , Y ) = H ( X ) + H ( Y ) − I ( X ; Y ) H\left( X,Y \right) =H\left( X \right) +H\left( Y \right) -I\left( X;Y \right) H(X,Y)=H(X)+H(Y)I(X;Y)上述关系还可由韦恩图给出:
在这里插入图片描述

参考文献

  1. 互信息I(X;Y)中H(X)怎么推导出来
  2. 机器学习——建立因果连系(传递熵)
  • 11
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值