考虑一对连续的随机变量X和Y,这两者是相关的。由概率论,可以将X和Y的联合概率表示为:
pX,Y=pY(y|x)px(x)
p
X
,
Y
=
p
Y
(
y
|
x
)
p
x
(
x
)
由此根据微分熵的定义,有:
h(X,Y)=h(X)+h(Y|X)
h
(
X
,
Y
)
=
h
(
X
)
+
h
(
Y
|
X
)
这里h(X,Y)称为X和Y的联合微分熵,且h(Y|X)称为给定X,Y的条件微分熵。用文字描述,可以说关于X和Y的不确定性等于关于X的不确定性加上给定X时Y的不确定性。相似的,可以说关于X和Y的不确定性假设给定Y时X的不确定性,如下所示:
h(X,Y)=h(Y)+h(X|Y)
h
(
X
,
Y
)
=
h
(
Y
)
+
h
(
X
|
Y
)
在连续随机变量X应用到系统的输入,在系统的输出端产生了一个连续的随机变量Y,通过定义,微分熵 h(X) h ( X ) 是在观察系统输出Y之前关于系统输入X的不确定性,而条件微分熵H(X|Y)是在观察了系统输出Y之后的系统输入X的不确定性。其差H(X) - H(X|Y)就是由观察系统输出Y所决定的系统输入X的不确定性。这一熵差称为系统输入X和系统输出Y之间的互信息;
I(X:Y),因此可以写为:
I(X;Y)=h(x)−h(X|Y)=∫+∞−∞∫+∞−∞px,y(x,y)log(pX,Y(x,y)pX(x)pY(y))dxdy
I
(
X
;
Y
)
=
h
(
x
)
−
h
(
X
|
Y
)
=
∫
−
∞
+
∞
∫
−
∞
+
∞
p
x
,
y
(
x
,
y
)
log
(
p
X
,
Y
(
x
,
y
)
p
X
(
x
)
p
Y
(
y
)
)
d
x
d
y
=∫+∞−∞∫+∞−∞pX|Y(x|y)pY(y)log(pX,Y(x,y)pY(y))dxdy
=
∫
−
∞
+
∞
∫
−
∞
+
∞
p
X
|
Y
(
x
|
y
)
p
Y
(
y
)
l
o
g
(
p
X
,
Y
(
x
,
y
)
p
Y
(
y
)
)
d
x
d
y
两个连续随机变量X和Y之间的互信息具有三个重要性质:
性质1 非负性
互信息 I(X;Y) I ( X ; Y ) 总是非负的,即:
I(X;Y)≥0
I
(
X
;
Y
)
≥
0
性质2 对称性
I(Y,X)=I(X;Y)
I
(
Y
,
X
)
=
I
(
X
;
Y
)
性质3 不变性
在随机变量的可逆变换下互信息是不变的
互信息的一般性