本文摘抄自《信息论基础-第二版》第二章:熵、相对熵与互信息
2 联合熵与条件熵
现将单个随机变量的熵推广到两个随机变量的情形。由于可将(X,Y)视为单个向量值随机变量,所以定义其实并无新鲜之处。
定义:对于服从联合分布为的一对离散随机变量(X,Y),其联合熵H(X,Y) (joint entropy)定义为:
上式亦可表示为,也可以定义一个随机变量在给定另一随机变量下的条件熵,它是条件分布上关于起条件作用的那个随机变量取平均之后的期望值。
定义:若(X,Y)~p(x,y),条件熵(Conditional entropy) H(Y|X)定义为:
联合熵和条件熵的定义的这种自然性可由一个事实得到体现,他就是一对随机变量的熵等于其中一个随机变量的熵加上另一个随机变量的条件熵。
定理2.2.1(链式法则):
证明:
等价的记为:。等式两边同时取数学期望,即得本定理。
推论:
H(X,Y|Z)=H(X|Z)+H(Y|X,Z)
例2.2.1:设(X,Y)服从如下得联合分布:
Y X | 1 | 2 | 3 | 4 | Y |
1 | 1/8 | 1/16 | 1/32 | 1/32 | 1/4 |
2 | 1/16 | 1/8 | 1/32 | 1/32 | 1/4 |
3 | 1/16 | 1/16 | 1/16 | 1/16 | 1/4 |
4 | 1/4 | 0 | 0 | 0 | 1/4 |
X | 1/2 | 1/4 | 1/8 | 1/8 |
X的遍及分布为(1/2,1/4,1/8,1/8),Y的边际分布为(1/4,1/4,1/4,1/4),因而H(X)=7/4bit,而H(Y)=2bit。并且,
同理:
可以计算。
注释:但是