教材:《信息论基础》(第三版)石峰,莫忠息,武汉大学出版社
第1-4章
为了复习之便,对教材顺序可能有所调整。
Chapter 1 概论
老三论:控制论,系统论,信息论
Shannon,1956:Shannon熵
自信息:
I
(
A
)
=
−
log
P
(
A
)
I(A)=-\log P(A)
I(A)=−logP(A) 事件的发生概率越小,产生的信息量越大
熵:
H
=
−
∑
i
p
i
log
(
p
i
)
H=-\sum_{i} p_i\log (p_i)
H=−∑ipilog(pi)
Chapter 2 信息与熵
离散信源:
(
S
,
P
)
(S,P)
(S,P): 有限符号集
S
=
{
x
1
,
.
.
.
,
x
n
}
S=\{x_1,...,x_n\}
S={x1,...,xn},P为其上的一个概率分布,其中
x
i
x_i
xi的概率为
p
i
p_i
pi
自信息:
I
(
x
i
)
=
−
log
p
i
I(x_i)=-\log p_i
I(xi)=−logpi,其中底数可以任意取,但一般取为2,此时信息的单位为bit 意义:一个从{0,1}中等概率取值的随机变量的信息为1bit
熵:
H
(
S
)
=
−
∑
i
p
i
log
p
i
H(S)=-\sum_i p_i\log p_i
H(S)=−∑ipilogpi,特别地,指定
0
⋅
l
o
g
0
=
0
0 ·log0=0
0⋅log0=0
熵函数的唯一性:满足以下三个直觉性质的熵函数唯一,形如
H
(
S
)
=
−
∑
i
p
i
log
C
p
i
H(S)=-\sum_i p_i\log_C p_i
H(S)=−∑ipilogCpi
- H ( p 1 , . . . , p n ) H(p_1,...,p_n) H(p1,...,pn)对所有分布有定义且连续
- H ( 1 n , . . . , 1 n ) < H ( 1 n + 1 , . . . , 1 n + 1 ) H(\frac{1}{n},...,\frac{1}{n})< H(\frac{1}{n+1},...,\frac{1}{n+1}) H(n1,...,n1)<H(n+11,...,n+11)
- H ( 1 n , . . . , 1 n ) = H ( b 1 n , . . . , b k n ) + ∑ i k b i n H ( 1 b i , . . . , 1 b i ) H(\frac{1}{n},...,\frac{1}{n})=H(\frac{b_1}{n},...,\frac{b_k}{n})+\sum_i^k \frac{b_i}{n}H(\frac{1}{b_i},...,\frac{1}{b_i}) H(n1,...,n1)=H(nb1,...,nbk)+∑iknbiH(bi1,...,bi1)
熵的性质:
- 0 ≤ H ( S ) ≤ log n 0\leq H(S)\leq \log n 0≤H(S)≤logn,前者取等当且仅当 p k = 1 p_k=1 pk=1,其余为0,后者取等当且仅当 p i = 1 n , ∀ i p_i=\frac{1}{n},\forall i pi=n1,∀i
- 与 x 1 , , . . , x n x_1,,..,x_n x1,,..,xn的顺序无关,仅与概率分布有关
- 特别的,如果一个离散随机变量X的分布和S相同,则X的熵定义同上,之后也不再和信源区分
联合熵:
H
(
X
,
Y
)
=
−
∑
i
,
j
p
(
x
i
,
y
j
)
log
p
(
x
i
,
y
j
)
H(X,Y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j)
H(X,Y)=−∑i,jp(xi,yj)logp(xi,yj)
显然,X和Y的联合熵就是随机向量(X,Y)的熵,同理可以定义多元联合熵
性质4:
H
(
X
,
Y
)
≤
H
(
X
)
+
H
(
Y
)
H(X,Y)\leq H(X)+H(Y)
H(X,Y)≤H(X)+H(Y),取等当且仅当X和Y独立(用条件熵比较好证),同理
H
(
X
1
,
.
.
.
,
X
n
)
≤
H
(
X
1
)
+
.
.
.
+
H
(
X
n
)
H(X_1,...,X_n)\leq H(X_1)+...+H(X_n)
H(X1,...,Xn)≤H(X1)+...+H(Xn)
条件熵:
H
(
X
∣
Y
=
y
)
=
−
∑
i
p
(
x
i
∣
y
)
log
p
(
x
i
∣
y
)
H(X|Y=y)=-\sum_i p(x_i|y)\log p(x_i|y)
H(X∣Y=y)=−∑ip(xi∣y)logp(xi∣y)
H
(
X
∣
Y
)
=
∑
j
p
(
Y
=
y
j
)
H
(
X
∣
Y
=
y
j
)
=
−
∑
i
,
j
p
(
x
i
,
y
j
)
log
p
(
x
i
∣
y
j
)
H(X|Y)=\sum_jp(Y=y_j)H(X|Y=y_j)=-\sum_{i,j} p(x_i,y_j)\log p(x_i|y_j)
H(X∣Y)=∑jp(Y=yj)H(X∣Y=yj)=−∑i,jp(xi,yj)logp(xi∣yj)
由于
p
(
x
i
∣
y
j
)
=
p
(
x
i
,
y
j
)
/
p
(
y
j
)
p(x_i|y_j)=p(x_i,y_j)/p(y_j)
p(xi∣yj)=p(xi,yj)/p(yj),可得以下式子:
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
H(X|Y)=H(X,Y)-H(Y)
H(X∣Y)=H(X,Y)−H(Y)
推论:性质5:
H
(
X
∣
Y
)
≤
H
(
X
,
Y
)
,
H
(
Y
)
≤
H
(
X
,
Y
)
H(X|Y)\leq H(X,Y),H(Y)\leq H(X,Y)
H(X∣Y)≤H(X,Y),H(Y)≤H(X,Y)
性质6(条件熵减):
H
(
X
∣
Y
)
≤
H
(
X
)
H(X|Y)\leq H(X)
H(X∣Y)≤H(X),取等当且仅当X和Y独立
推论:性质4
熵函数的性质:
性质7:
∑
i
p
i
log
1
p
i
≤
∑
i
p
i
log
1
q
i
\sum_i p_i \log \frac{1}{p_i}\leq \sum_i p_i \log \frac{1}{q_i}
∑ipilogpi1≤∑ipilogqi1对任意分布p和子分布q成立(
∑
i
q
i
≤
1
\sum_i q_i\leq1
∑iqi≤1)
性质8:可加性(分组求熵),对称性,扩展性(增加一个取值
ϵ
\epsilon
ϵ的随机变量没有影响)
(下)凸函数:形如
y
=
x
2
y=x^2
y=x2;反之为凹(上凸)函数
性质9:在n元概率分布定义的凸空间K上,熵函数
H
(
p
1
,
.
.
.
,
p
n
)
H(p_1,...,p_n)
H(p1,...,pn)为凹函数
微分熵:
对于连续型随机变量X,定义其微分熵
H
C
(
X
)
=
−
∫
−
∞
∞
p
(
x
)
ln
p
(
x
)
d
x
H_C(X)=-\int_{-\infty}^{\infty} p(x)\ln p(x)dx
HC(X)=−∫−∞∞p(x)lnp(x)dx(底数为自然对数)
对于常见的分布:
H
C
(
U
[
a
,
b
]
)
=
ln
(
b
−
a
)
H_C(U[a,b])=\ln (b-a)
HC(U[a,b])=ln(b−a),
H
C
(
N
[
μ
,
σ
2
]
)
=
1
2
ln
(
2
π
e
σ
2
)
H_C(N[\mu,\sigma^2])=\frac{1}{2} \ln (2\pi e\sigma^2)
HC(N[μ,σ2])=21ln(2πeσ2)
对于一般的分布X:熵功率
σ
ˉ
2
=
1
2
π
e
e
2
H
C
(
X
)
\bar{\sigma}^2=\frac{1}{2\pi e} e^{2H_C(X)}
σˉ2=2πe1e2HC(X),特别的,对于正态分布,熵功率和方差相等
性质10:微分熵和熵最大的区别为其取值范围为
(
−
∞
,
∞
)
(-\infty,\infty)
(−∞,∞)
其它微分熵:
H
C
(
X
,
Y
)
,
H
C
(
X
∣
Y
)
H_C(X,Y),H_C(X|Y)
HC(X,Y),HC(X∣Y),保持了以下关系:
性质11:
H
C
(
X
∣
Y
)
+
H
C
(
Y
)
=
H
C
(
X
,
Y
)
H_C(X|Y)+H_C(Y)=H_C(X,Y)
HC(X∣Y)+HC(Y)=HC(X,Y)
性质12:
H
C
(
X
∣
Y
)
≤
H
C
(
X
)
H_C(X|Y)\leq H_C(X)
HC(X∣Y)≤HC(X)
性质13:
H
C
(
X
)
+
H
C
(
Y
)
≤
H
C
(
X
,
Y
)
H_C(X)+H_C(Y)\leq H_C(X,Y)
HC(X)+HC(Y)≤HC(X,Y)
附加约束下的微分熵界限:
性质14:若X在(-M,M)上取值,则
H
C
(
X
)
≤
ln
2
M
H_C(X)\leq \ln 2M
HC(X)≤ln2M,取等当且仅当X为均匀分布
性质15:若X的方差为
σ
2
\sigma^2
σ2,则
H
C
(
X
)
≤
ln
2
π
e
σ
H_C(X)\leq \ln \sqrt{2 \pi e}\sigma
HC(X)≤ln2πeσ,取等当且仅当X为正态分布
注:求一个随机变量X的函数g(X)的密度函数的方法:
- 直接求g(X)的分布函数 F ( a ) = P { g ( X ) < a } F(a)=P\{g(X)<a\} F(a)=P{g(X)<a},再对F求导得到密度函数
- (密度变换公式)设随机变量
ξ
\xi
ξ 的密度函数为
p
ξ
(
x
)
,
a
<
x
<
b
p_{\xi}(x), a<x<b
pξ(x),a<x<b. 如果可 以把
(
a
,
b
)
(a, b)
(a,b) 分割为一些 (有限个或可列个) 互不重叠的子区间的和
(
a
,
b
)
=
⋃
j
I
j
(a, b)=\bigcup_{j} I_{j}
(a,b)=⋃jIj, 使得函数
u
=
g
(
t
)
,
t
∈
(
a
,
b
)
u=g(t), t \in(a, b)
u=g(t),t∈(a,b) 在每个子区间上有唯一的反函数
h
j
(
u
)
h_{j}(u)
hj(u), 并且
h
j
′
(
u
)
h_{j}^{\prime}(u)
hj′(u) 存 在连续, 则
η
=
g
(
ξ
)
\eta=g(\xi)
η=g(ξ) 是连续型随机变量, 其密度函数为:
p η ( x ) = ∑ j p ξ ( h j ( x ) ) ∣ h j ′ ( x ) ∣ p_{\eta}(x)=\sum_{j} p_{\xi}\left(h_{j}(x)\right)\left|h_{j}^{\prime}(x)\right| pη(x)=j∑pξ(hj(x))∣∣hj′(x)∣∣
例如: X ∼ U [ a , b ] X\sim U[a,b] X∼U[a,b],求 X 2 X^2 X2的密度函数。
解:1: F ( k ) = P { X 2 < k } = P { − k < X < k } = 1 b − a ( min { k , b } − max { − k , a } ) ( k > 0 ) F(k)=P\{X^2<k\}=P\{-\sqrt{k}<X<\sqrt{k}\}=\frac{1}{b-a}({\min\{\sqrt{k},b\}}-\max\{-\sqrt{k},a\})(k>0) F(k)=P{X2<k}=P{−k<X<k}=b−a1(min{k,b}−max{−k,a})(k>0),然后分类对k求导即可
2:由于需要 X 2 X^2 X2单调,因此需要将[a,b]分割为大于0和小于0的两部分:
在大于0的部分:g的反函数是 x \sqrt{x} x,导数存在连续,则 p g ( X ) ( x ) = p X ( x ) × 1 2 x − 1 2 p_{g(X)}(x)= p_X(\sqrt{x})\times \frac{1}{2}x^{-\frac{1}{2}} pg(X)(x)=pX(x)×21x−21,小于0的部分同理,加上讨论和判断 x \sqrt{x} x的取值区间即可。
Chapter 3 互信息
互信息:事件
b
j
b_j
bj对于事件
a
i
a_i
ai的互信息
I
(
a
i
;
b
j
)
=
log
p
(
a
i
,
b
j
)
p
(
a
i
)
p
(
b
j
)
=
log
p
(
a
i
∣
b
j
)
p
(
a
i
)
=
I
(
b
j
;
a
i
)
I(a_i;b_j)=\log \frac{p(a_i,b_j)}{p(a_i)p(b_j)}=\log \frac{p(a_i|b_j)}{p(a_i)}=I(b_j;a_i)
I(ai;bj)=logp(ai)p(bj)p(ai,bj)=logp(ai)p(ai∣bj)=I(bj;ai),独立时=0
特别的,
I
(
a
i
;
a
i
)
=
I
(
a
i
)
I(a_i;a_i)=I(a_i)
I(ai;ai)=I(ai)(自信息)
条件自信息:
I
(
a
i
∣
b
j
)
=
log
p
(
b
j
)
p
(
a
i
,
b
j
)
I(a_i|b_j)=\log \frac{p(b_j)}{p(a_i,b_j)}
I(ai∣bj)=logp(ai,bj)p(bj)
联合自信息:
I
(
a
i
,
b
j
)
=
log
1
p
(
a
i
,
b
j
)
I(a_i,b_j)=\log \frac{1}{p(a_i,b_j)}
I(ai,bj)=logp(ai,bj)1
记忆方法:
I
(
Y
)
=
log
1
p
(
Y
)
I(Y)=\log{\frac{1}{p(Y)}}
I(Y)=logp(Y)1
性质1:
I
(
a
i
;
b
j
)
+
I
(
a
i
,
b
j
)
=
I
(
a
i
)
+
I
(
b
j
)
I(a_i;b_j)+I(a_i,b_j)=I(a_i)+I(b_j)
I(ai;bj)+I(ai,bj)=I(ai)+I(bj)
条件互信息:在条件
x
1
,
.
.
.
,
x
n
−
2
x_1,...,x_{n-2}
x1,...,xn−2下的
x
N
x_N
xN关于
x
N
−
1
x_{N-1}
xN−1的条件互信息:
I
(
x
N
;
x
N
−
1
∣
x
1
,
⋯
,
x
N
−
2
)
=
log
p
(
x
N
∣
x
1
,
⋯
,
x
N
−
2
,
x
N
−
1
)
p
(
x
N
∣
x
1
,
⋯
,
x
N
−
2
)
I\left(x_{N} ; x_{N-1} \mid x_{1}, \cdots, x_{N-2}\right)=\log \frac{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}, x_{N-1}\right)}{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}\right)}
I(xN;xN−1∣x1,⋯,xN−2)=logp(xN∣x1,⋯,xN−2)p(xN∣x1,⋯,xN−2,xN−1)
联合事件和事件之间的互信息:
I
(
a
i
;
b
j
,
c
k
)
=
log
p
(
a
i
∣
b
j
,
c
k
)
p
(
a
i
)
I\left(a_{i} ; b_{j}, c_{k}\right)=\log \frac{p\left(a_{i} \mid b_{j}, c_{k}\right)}{p\left(a_{i}\right)}
I(ai;bj,ck)=logp(ai)p(ai∣bj,ck)
性质2:
I
(
a
i
;
b
j
,
c
k
)
=
I
(
a
i
;
b
j
)
+
I
(
a
i
;
c
k
∣
b
j
)
=
=
I
(
b
j
,
c
k
;
a
i
)
=
I
(
b
j
;
a
i
)
+
I
(
c
k
;
a
i
∣
b
j
)
=
I
(
a
i
;
b
j
)
+
I
(
c
k
;
a
i
∣
b
j
)
.
I\left(a_{i} ; b_{j}, c_{k}\right)=I\left(a_{i} ; b_{j}\right)+I\left(a_{i} ; c_{k} \mid b_{j}\right)=\begin{aligned} &=I\left(b_{j}, c_{k} ; a_{i}\right) \\ &=I\left(b_{j} ; a_{i}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) \\ &=I\left(a_{i} ; b_{j}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) . \end{aligned}
I(ai;bj,ck)=I(ai;bj)+I(ai;ck∣bj)==I(bj,ck;ai)=I(bj;ai)+I(ck;ai∣bj)=I(ai;bj)+I(ck;ai∣bj).
注意:符号“,”,“;”,“|”的运算次序为 “,”,“;”和“|”.
平均互信息:
定义为各个事件的互信息的数学期望
I
(
X
;
Y
)
=
E
(
I
(
a
i
;
b
j
)
)
=
∑
i
∑
j
p
(
a
i
,
b
j
)
log
p
(
a
i
,
b
j
)
p
(
a
i
)
p
(
b
j
)
I(X ; Y)=E\left(I\left(a_{i} ; b_{j}\right)\right)=\sum_{i} \sum_{j} p\left(a_{i}, b_{j}\right) \log \frac{p\left(a_{i}, b_{j}\right)}{p\left(a_{i}\right) p\left(b_{j}\right)}
I(X;Y)=E(I(ai;bj))=∑i∑jp(ai,bj)logp(ai)p(bj)p(ai,bj)
性质3:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
≥
0
I(X ; Y)=H(X)-H(X \mid Y)\\=H(X)+H(Y)-H(X, Y) \geq0
I(X;Y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)≥0
同理,有:
平均联合互信息:
I
(
X
;
Y
Z
)
=
H
(
X
)
−
H
(
X
∣
Y
Z
)
=
H
(
Y
Z
)
−
H
(
Y
Z
∣
X
)
≥
0
\begin{aligned} I(X ; Y Z) &=H(X)-H(X \mid Y Z) \\ &=H(Y Z)-H(Y Z \mid X) \end{aligned}\geq0
I(X;YZ)=H(X)−H(X∣YZ)=H(YZ)−H(YZ∣X)≥0
平均条件互信息:
I
(
X
;
Y
∣
Z
)
=
∑
k
∑
j
∑
l
p
(
a
k
,
b
j
,
c
l
)
log
p
(
a
k
,
b
j
∣
c
l
)
p
(
a
k
∣
c
l
)
p
(
b
j
∣
c
l
)
≥
0
I(X ; Y \mid Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j} \mid c_{l}\right)}{p\left(a_{k} \mid c_{l}\right) p\left(b_{j} \mid c_{l}\right)}\geq0
I(X;Y∣Z)=∑k∑j∑lp(ak,bj,cl)logp(ak∣cl)p(bj∣cl)p(ak,bj∣cl)≥0
性质4:
I
(
X
;
Y
∣
Z
)
=
H
(
X
∣
Z
)
−
H
(
X
∣
Y
Z
)
,
I
(
X
;
Y
∣
Z
)
=
H
(
Y
∣
Z
)
−
H
(
Y
∣
X
Z
)
.
I
(
X
;
Y
∣
Z
)
=
H
(
X
∣
Z
)
+
H
(
Y
∣
Z
)
−
H
(
X
Y
∣
Z
)
.
I
(
X
;
Y
∣
Z
)
=
H
(
X
Z
)
−
H
(
Z
)
−
H
(
X
Y
Z
)
+
H
(
Z
)
+
H
(
Y
Z
)
−
H
(
Z
)
=
H
(
X
Z
)
+
H
(
Y
Z
)
−
H
(
X
Y
Z
)
−
H
(
Z
)
.
\begin{aligned} I(X ; Y \mid Z)=& H(X \mid Z)-H(X \mid Y Z), \\ I(X ; Y \mid Z)=& H(Y \mid Z)-H(Y \mid X Z) . \\ I(X ; Y \mid Z)=& H(X \mid Z)+H(Y \mid Z)-H(X Y \mid Z) . \\ I(X ; Y \mid Z)=& H(X Z)-H(Z)-H(X Y Z)+H(Z) \\ &+H(Y Z)-H(Z) \\ =& H(X Z)+H(Y Z)-H(X Y Z)-H(Z) . \end{aligned}
I(X;Y∣Z)=I(X;Y∣Z)=I(X;Y∣Z)=I(X;Y∣Z)==H(X∣Z)−H(X∣YZ),H(Y∣Z)−H(Y∣XZ).H(X∣Z)+H(Y∣Z)−H(XY∣Z).H(XZ)−H(Z)−H(XYZ)+H(Z)+H(YZ)−H(Z)H(XZ)+H(YZ)−H(XYZ)−H(Z).
多元互信息:
I
(
X
;
Y
;
Z
)
=
∑
k
∑
j
∑
l
p
(
a
k
,
b
j
,
c
l
)
log
p
(
a
k
,
b
j
)
p
(
b
j
,
c
l
)
p
(
a
k
,
c
l
)
p
(
a
k
)
p
(
b
j
)
p
(
c
l
)
p
(
a
k
,
b
j
,
c
l
)
I(X ; Y ; Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j}\right) p\left(b_{j}, c_{l}\right) p\left(a_{k}, c_{l}\right)}{p\left(a_{k}\right) p\left(b_{j}\right) p\left(c_{l}\right) p\left(a_{k}, b_{j}, c_{l}\right)}
I(X;Y;Z)=∑k∑j∑lp(ak,bj,cl)logp(ak)p(bj)p(cl)p(ak,bj,cl)p(ak,bj)p(bj,cl)p(ak,cl),不一定大于等于0
性质5:
I
(
X
;
Y
;
Z
)
=
I
(
X
;
Y
)
−
I
(
X
;
Y
∣
Z
)
I(X ; Y ; Z)=I(X ; Y)-I(X ; Y \mid Z)
I(X;Y;Z)=I(X;Y)−I(X;Y∣Z),由于X,Y,Z可以轮换,因此可以得到若干个条件互信息的关系式
互信息函数的性质:
可以将X与Y的互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y)看作关于X的概率分布P和Y关于X的条件分布矩阵Q的函数
I
(
P
,
Q
)
I(P,Q)
I(P,Q),则:
性质6:
I
(
P
,
Q
)
I(P,Q)
I(P,Q)是关于P的凹(上凸)函数
性质7:
I
(
P
,
Q
)
I(P,Q)
I(P,Q)是关于Q的凸(下凸)函数
同理,可以定义连续随机变量的互信息:
I
(
X
;
Y
)
=
E
X
Y
(
I
(
x
;
y
)
)
=
∬
X
Y
(
x
,
y
)
log
p
X
∣
Y
(
x
∣
y
)
p
X
(
x
)
d
x
d
y
=
∬
X
Y
(
x
,
y
)
log
p
X
Y
(
x
,
y
)
p
X
(
x
)
p
Y
(
y
)
d
x
d
y
.
\begin{aligned} I(X ; Y) &=E_{X Y}(I(x ; y)) \\ &=\iint_{X Y}(x, y) \log \frac{p_{X \mid Y}(x \mid y)}{p_{X}(x)} \mathrm{d} x \mathrm{~d} y \\ &=\iint_{X Y}(x, y) \log \frac{p_{X Y}(x, y)}{p_{X}(x) p_{Y}(y)} \mathrm{d} x \mathrm{~d} y . \end{aligned}
I(X;Y)=EXY(I(x;y))=∬XY(x,y)logpX(x)pX∣Y(x∣y)dx dy=∬XY(x,y)logpX(x)pY(y)pXY(x,y)dx dy.
I
(
X
;
Y
∣
Z
)
=
∭
X
Y
Z
(
x
,
y
,
z
)
log
p
X
Y
∣
Z
(
x
,
y
∣
z
)
p
X
∣
Z
(
x
∣
z
)
p
Y
∣
Z
(
y
∣
z
)
d
x
d
y
d
z
I(X ; Y \mid Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y \mid Z}(x, y \mid z)}{p_{X \mid Z}(x \mid z) p_{Y \mid Z}(y \mid z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} z
I(X;Y∣Z)=∭XYZ(x,y,z)logpX∣Z(x∣z)pY∣Z(y∣z)pXY∣Z(x,y∣z)dx dy dz
I
(
X
Y
;
Z
)
=
∭
X
Y
Z
(
x
,
y
,
z
)
log
p
X
Y
Z
(
x
,
y
,
z
)
p
X
Y
(
x
,
y
)
p
Z
(
z
)
d
x
d
y
d
z
I(X Y ; Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y Z}(x, y, z)}{p_{X Y}(x, y) p_{Z}(z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} z
I(XY;Z)=∭XYZ(x,y,z)logpXY(x,y)pZ(z)pXYZ(x,y,z)dx dy dz
性质8:
I
(
X
;
Y
)
⩾
0
;
I
(
X
;
Y
)
=
I
(
Y
;
X
)
,
I
(
X
;
Y
∣
Z
)
=
I
(
Y
;
X
∣
Z
)
I
(
X
Y
;
Z
)
=
I
(
X
;
Z
)
+
I
(
Y
;
Z
∣
X
)
=
I
(
Y
;
Z
)
+
I
(
X
;
Z
∣
Y
)
\begin{aligned} &I(X ; Y) \geqslant 0 ; \\ &I(X ; Y)=I(Y ; X), I(X ; Y \mid Z)=I(Y ; X \mid Z) \\ &I(X Y ; Z)=I(X ; Z)+I(Y ; Z \mid X)=I(Y ; Z)+I(X ; Z \mid Y) \end{aligned}
I(X;Y)⩾0;I(X;Y)=I(Y;X),I(X;Y∣Z)=I(Y;X∣Z)I(XY;Z)=I(X;Z)+I(Y;Z∣X)=I(Y;Z)+I(X;Z∣Y)
Chapter 4 信源与信源编码简介
信源:信息的来源
离散无记忆信源的定长编码:
无记忆信源的输出是一个长为N的iid序列
(
x
1
,
.
.
.
,
x
N
)
(x_1,...,x_N)
(x1,...,xN),
p
(
x
)
=
∏
i
=
1
N
p
(
x
i
)
p(x)=\prod_{i=1}^{N} p\left(x_{i}\right)
p(x)=∏i=1Np(xi),自信息为
I
(
x
)
=
−
log
p
(
x
)
=
∑
i
=
1
N
(
−
log
p
(
x
i
)
)
=
∑
i
=
1
N
I
(
x
i
)
I(x)=-\log p(x)=\sum_{i=1}^{N}\left(-\log p\left(x_{i}\right)\right)=\sum_{i=1}^{N} I\left(x_{i}\right)
I(x)=−logp(x)=∑i=1N(−logp(xi))=∑i=1NI(xi),根据大数定律,平均自信息
I
N
(
x
)
≜
I
(
x
)
N
=
1
N
∑
i
=
1
N
I
(
x
i
)
→
H
(
X
)
=
−
∑
i
=
1
K
p
(
a
i
)
log
p
(
a
i
)
=
∑
i
=
1
K
p
(
a
i
)
I
(
a
i
)
I_{N}(x) \triangleq \frac{I(x)}{N}=\frac{1}{N} \sum_{i=1}^{N} I\left(x_{i}\right) \rightarrow H(X)=-\sum_{i=1}^{K} p\left(a_{i}\right) \log p\left(a_{i}\right)=\sum_{i=1}^{K} p\left(a_{i}\right) I\left(a_{i}\right)
IN(x)≜NI(x)=N1∑i=1NI(xi)→H(X)=−∑i=1Kp(ai)logp(ai)=∑i=1Kp(ai)I(ai)
从而,无记忆信源的输出相当集中于平均信息量接近X的熵的小部分序列之中。从而,称集合
T
X
(
N
,
ε
)
=
{
x
=
x
1
⋯
x
N
∣
H
(
X
)
−
ε
⩽
I
N
(
x
)
⩽
H
(
X
)
+
ε
}
T_{X}(N, \varepsilon)=\left\{\boldsymbol{x}=x_{1} \cdots_{x_{N}} \mid H(X)-\varepsilon \leqslant I_{N}(\boldsymbol{x}) \leqslant H(X)+\boldsymbol{\varepsilon}\right\}
TX(N,ε)={x=x1⋯xN∣H(X)−ε⩽IN(x)⩽H(X)+ε}
为输出长度为
N
N
N 的
ε
\varepsilon
ε - 典型序列集合,在N趋于无穷时,典型序列的出现概率趋于1.
推论:性质1: 若
x
=
x
1
x
2
⋯
x
N
∈
T
X
(
N
,
ε
)
x=x_{1} x_{2} \cdots x_{N} \in T_{X}(N, \varepsilon)
x=x1x2⋯xN∈TX(N,ε), 则
2
−
N
(
H
(
X
)
+
ϵ
)
⩽
p
(
x
)
⩽
2
−
N
(
H
(
X
)
−
ε
)
2^{-N(H(X)+\epsilon)} \leqslant p(\boldsymbol{x}) \leqslant 2^{-N(H(X)-\varepsilon)}
2−N(H(X)+ϵ)⩽p(x)⩽2−N(H(X)−ε),即
p
(
x
)
≈
2
−
N
H
(
x
)
.
p(x) \approx 2^{-N H(x)} .
p(x)≈2−NH(x).
推论:性质2:当
N
N
N 足够大时, 典型序列数目
∣
T
X
(
N
,
ε
)
∣
\left|T_{X}(N, \varepsilon)\right|
∣TX(N,ε)∣ 满足
(
1
−
ε
)
⋅
2
N
(
H
(
X
)
−
ε
)
⩽
∣
T
X
(
N
,
ε
)
∣
⩽
2
N
(
H
(
X
)
+
ε
)
,
(1-\varepsilon) \cdot 2^{N(H(X)-\varepsilon)} \leqslant\left|T_{X}(N, \varepsilon)\right| \leqslant 2^{N(H(X)+\varepsilon)} \text {, }
(1−ε)⋅2N(H(X)−ε)⩽∣TX(N,ε)∣⩽2N(H(X)+ε),
记忆方法:由于每次取得典型序列的概率趋于1,因此典型序列的数量大约是每个典型序列出现概率的倒数
由此,得到关于无记忆信源的编码定理:
定长编码定理: 设离散无记忆信源
(
S
,
X
)
(S,X)
(S,X), 其熵 为
H
(
X
)
H(X)
H(X), 被分成长为
N
N
N 的源字母组, 并用长为
M
M
M 的码字母组进行表示, 其 中, 码字母集
B
=
{
b
1
,
b
2
,
⋯
,
b
J
}
B=\left\{b_{1}, b_{2}, \cdots, b_{J}\right\}
B={b1,b2,⋯,bJ}. 则对任给的
ε
>
0
\varepsilon>0
ε>0 及
δ
>
0
\delta>0
δ>0, 只要
N
N
N 足 够大, 且满足不等式
M
N
log
J
>
H
(
X
)
+
δ
,
\frac{M}{N} \log J>H(X)+\delta,
NMlogJ>H(X)+δ,
则源字母组没有自己特定码字的概率
p
e
p_{e}
pe 可以小于
ε
\varepsilon
ε.
定义:
R
=
M
N
log
J
R=\frac{M}{N} \log J
R=NMlogJ 为编码速率或称码率,
η
=
H
(
X
)
R
\eta=\frac{H(X)}{R}
η=RH(X)称为编码效率,通常小于1
离散无记忆信源的变长编码:
字母表:有限集
A
=
{
a
1
,
.
.
.
,
a
n
}
A=\{a_1,...,a_n\}
A={a1,...,an},字符串:
A
∗
A^*
A∗,在A上的一个编码称为n元码
设
I
=
(
S
,
P
)
\mathscr{I}=(S, P)
I=(S,P) 为一个信源,
C
C
C 为任一码. 称有序对
(
C
,
f
)
(C, f)
(C,f) 为一个编码规则, 如果
f
:
S
→
C
f: S \rightarrow C
f:S→C 为一个单射. 我们称
f
f
f 为一个编码函数
在变长情形下,度量编码的好坏需要使用平均码长:
Avelen
(
C
,
f
)
=
∑
i
=
1
n
p
(
s
i
)
len
(
f
(
s
i
)
)
\operatorname{Avelen}(C, f)=\sum_{i=1}^{n} p\left(s_{i}\right) \operatorname{len}\left(f\left(s_{i}\right)\right)
Avelen(C,f)=∑i=1np(si)len(f(si))
唯一可译码:称码
C
C
C 为唯一可译码, 如果当
c
1
,
⋯
,
c
k
,
d
1
,
⋯
,
d
j
c_{1}, \cdots, c_{k}, d_{1}, \cdots, d_{j}
c1,⋯,ck,d1,⋯,dj 为
C
C
C 中码字, 并且有
c
1
⋯
c
k
=
d
1
⋯
d
j
c_{1} \cdots c_{k}=d_{1} \cdots d_{j}
c1⋯ck=d1⋯dj则
k
=
j
k=j
k=j 且
c
i
=
d
i
,
∀
i
c_{i}=\boldsymbol{d}_{i}, \forall i
ci=di,∀i.
前缀码:如果C中任意两个码都不互为前缀,则称为前缀码。特别的,前缀码是一种唯一可译码,而且即时可译
Kraft _McMillan 定理:
(1) 如果
C
C
C 为一个
r
r
r 元唯一可译码, 其码字长度分别为
l
1
,
l
2
,
⋯
,
l
n
l_{1}, l_{2}, \cdots, l_{n}
l1,l2,⋯,ln, 则下列
K
r
a
f
t
\mathrm{Kraft}
Kraft 不等式必成立:
∑
k
=
1
n
1
r
l
k
⩽
1
\sum_{k=1}^{n} \frac{1}{r^{l_{k}}} \leqslant 1
k=1∑nrlk1⩽1
(2) 如果自然数
l
1
,
l
2
,
⋯
,
l
n
l_{1}, l_{2}, \cdots, l_{n}
l1,l2,⋯,ln 与
r
r
r 满足
K
r
a
f
t
\mathrm{Kraft}
Kraft 不等式, 则必存在一个码字长度为
l
1
,
l
2
,
⋯
,
l
n
l_{1}, l_{2}, \cdots, l_{n}
l1,l2,⋯,ln 的
r
r
r 元前缀码.
最优编码的构造:
编码的最优性度量:
对确定的概率分布
(
p
1
,
p
2
,
⋯
,
p
n
)
\left(p_{1}, p_{2}, \cdots, p_{n}\right)
(p1,p2,⋯,pn),
r
r
r 元前缀码
(
c
1
,
c
2
,
⋯
,
c
n
)
\left(c_{1}, c_{2}, \cdots, c_{n}\right)
(c1,c2,⋯,cn) 称为最优编码, 如果Avelen
(
c
1
,
c
2
,
⋯
,
c
n
)
=
\left(c_{1}, c_{2}, \cdots, c_{n}\right)=
(c1,c2,⋯,cn)= MinAvelen
(
p
1
⋅
p
2
,
⋯
,
p
n
)
\left(p_{1} \cdot p_{2}, \cdots, p_{n}\right)
(p1⋅p2,⋯,pn)
编码和r进熵的关系:
r进熵:
H
r
(
p
1
,
p
2
,
⋯
,
p
n
)
=
∑
i
=
1
n
p
i
log
r
1
p
i
H_{r}\left(p_{1}, p_{2}, \cdots, p_{n}\right)=\sum_{i=1}^{n} p_{i} \log _{r} \frac{1}{p_{i}}
Hr(p1,p2,⋯,pn)=∑i=1npilogrpi1
定理:设
C
=
(
c
1
,
c
2
,
⋯
,
c
n
)
C=\left(c_{1}, c_{2}, \cdots, c_{n}\right)
C=(c1,c2,⋯,cn) 为概率分布
P
=
(
p
1
,
p
2
,
⋯
,
p
n
)
P=\left(p_{1}, p_{2}, \cdots, p_{n}\right)
P=(p1,p2,⋯,pn) 下 的一个唯一可译码, 则
H
r
⩽
Avelen
H_{r} \leqslant \operatorname{Avelen}
Hr⩽Avelen
等式成立的充要条件是:
∀
i
,
len
(
c
i
)
=
log
r
1
p
i
\forall i, \operatorname{len}\left(c_{i}\right)=\log _{r} \frac{1}{p_{i}}
∀i,len(ci)=logrpi1.
无噪声编码定理:
H
r
⩽
MinAvelen
<
H
r
+
1
H_{r} \leqslant \text { MinAvelen }<H_{r}+1
Hr⩽ MinAvelen <Hr+1
Huffman编码:
编码方法:假设编码符号集为
A
=
{
a
1
,
.
.
.
,
a
r
}
A=\{a_1,...,a_r\}
A={a1,...,ar},信源
X
=
{
x
1
,
.
.
.
,
x
n
;
p
1
,
.
.
.
,
p
n
}
X=\{x_1,...,x_n;p_1,...,p_n\}
X={x1,...,xn;p1,...,pn},则第一次合并
n
−
2
m
o
d
(
r
−
1
)
+
2
n-2\mod (r-1)+2
n−2mod(r−1)+2个编码,之后每次合成
r
r
r个编码即可。每次合成都取当前概率值最少的集合,然后为其在前面添加符号集从前到后的若干个编码
性质:Huffman编码是一种最优编码
推论:
H
r
⩽
A
v
g
l
e
n
(
Huffman
)
<
H
r
+
1
H_{r} \leqslant Avglen(\text{Huffman}) <H_{r}+1
Hr⩽Avglen(Huffman)<Hr+1
后面的均为二进制编码
Shannon编码:
对于信源:
p
1
≥
p
2
≥
.
.
.
≥
p
n
p_1\geq p_2\geq... \geq p_n
p1≥p2≥...≥pn:
令
q
k
=
∑
i
=
1
k
−
1
p
i
q_{k}=\sum_{i=1}^{k-1} p_{i}
qk=∑i=1k−1pi.
l
k
=
⌈
log
p
k
⌉
l_{k}= \lceil \log p_k \rceil
lk=⌈logpk⌉. 用
l
k
l_{k}
lk 个 bit 来表示
q
k
q_{k}
qk:将
q
k
q_{k}
qk 按二进制小数展开到
l
k
l_{k}
lk 位截断
性质:
H
r
⩽
A
v
g
l
e
n
(
Shannon
)
<
H
r
+
1
H_{r} \leqslant Avglen(\text{Shannon}) <H_{r}+1
Hr⩽Avglen(Shannon)<Hr+1,但不是最优编码
Fano编码:
对于信源:
p
1
≥
p
2
≥
.
.
.
≥
p
n
p_1\geq p_2\geq... \geq p_n
p1≥p2≥...≥pn:每次将每组概率尽可能分成等概率的两个连续组,并且分别赋予0/1,直到每个组都只剩下一个概率为止
性质:
A
v
g
l
e
n
(
Fano
)
≤
H
r
+
2
Avglen(\text{Fano})\leq H_{r}+2
Avglen(Fano)≤Hr+2,不是最优编码
S-F-E编码:
对于信源:
p
1
,
p
2
,
.
.
.
,
p
n
p_1, p_2,... ,p_n
p1,p2,...,pn:注意, 我们并没有对信源按概率大小进行排序. 记:
F
ˉ
(
k
)
=
∑
i
<
k
p
(
i
)
+
1
2
p
(
k
)
,
1
⩽
k
⩽
n
,
F
(
k
)
=
∑
i
⩽
k
p
(
i
)
,
1
⩽
k
⩽
n
\begin{aligned} &\bar{F}(k)=\sum_{i<k} p(i)+\frac{1}{2} p(k), \quad 1 \leqslant k \leqslant n, \\ &F(k)=\sum_{i \leqslant k} p(i), \quad 1 \leqslant k \leqslant n \end{aligned}
Fˉ(k)=i<k∑p(i)+21p(k),1⩽k⩽n,F(k)=i⩽k∑p(i),1⩽k⩽n
为累积概率分布,
F
ˉ
(
k
)
<
F
(
k
)
\bar{F}(k)<F(k)
Fˉ(k)<F(k),二者均单调增加, 易见
F
ˉ
(
k
)
⩽
F
(
k
)
⩽
F
ˉ
(
k
+
1
)
.
\bar{F}(k) \leqslant F(k) \leqslant \bar{F}(k+1) .
Fˉ(k)⩽F(k)⩽Fˉ(k+1).
l
k
=
⌈
log
p
k
⌉
+
1
l_{k}= \lceil \log p_k \rceil+1
lk=⌈logpk⌉+1. 用
l
k
l_{k}
lk 个 bit 来表示
F
ˉ
k
\bar{F}_{k}
Fˉk,即可得到S-F-E编码
性质:
A
v
g
l
e
n
(
S-F-E
)
≤
H
r
+
2
Avglen(\text{S-F-E})\leq H_{r}+2
Avglen(S-F-E)≤Hr+2,不是最优编码
离散平稳信源的编码:
信
源
{
有
记
忆
信
源
(
输
出
信
号
序
列
间
不
独
立
)
无
记
忆
信
源
{
简
单
信
源
(
独
立
同
分
布
序
列
)
其
它
信源 \{ \begin{aligned}&有记忆信源(输出信号序列间不独立)\\ &无记忆信源 \{\begin{aligned} &简单信源(独立同分布序列)\\ &其它\end{aligned} \end{aligned}
信源{有记忆信源(输出信号序列间不独立)无记忆信源{简单信源(独立同分布序列)其它
平稳信源:
对任意的
N
N
N, 连续N个信号的概率分布与起点无关, 即
P
(
X
1
=
x
i
1
,
⋯
,
X
N
=
x
i
N
)
=
P
(
X
L
+
1
=
x
i
1
,
⋯
,
X
L
+
N
=
x
i
N
)
P\left(X_{1}=x_{i_{1}}, \cdots,X_{N}=x_{i_{N}}\right)=P\left(X_{L+1}=x_{i_{1}}, \cdots,X_{L+N}=x_{i _N}\right)
P(X1=xi1,⋯,XN=xiN)=P(XL+1=xi1,⋯,XL+N=xiN)
性质1:从任意时间起点出发,得到的序列性质相同
定义信号的平均熵为:
H
N
(
X
)
=
1
N
H
(
X
1
,
X
2
,
⋯
,
X
N
)
H_{N}(\boldsymbol{X})=\frac{1}{N} H\left(X_{1}, X_{2}, \cdots, X_{N}\right)
HN(X)=N1H(X1,X2,⋯,XN)
性质2:
(1)
H
(
X
N
∣
X
1
,
⋯
,
X
N
−
1
)
H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)
H(XN∣X1,⋯,XN−1) 关于N单调减少;
(2)
∀
N
,
H
N
(
X
)
⩾
H
(
X
N
∣
X
1
,
⋯
,
X
N
−
1
)
\forall N, H_{N}(\boldsymbol{X}) \geqslant H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)
∀N,HN(X)⩾H(XN∣X1,⋯,XN−1);
(3)
H
N
(
X
)
H_{N}(\boldsymbol{X})
HN(X) 关于N单调减少;
(4)
lim
N
→
∞
H
N
(
X
)
=
lim
N
→
∞
H
(
X
N
∣
X
1
,
⋯
,
X
N
−
1
)
\lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)
limN→∞HN(X)=limN→∞H(XN∣X1,⋯,XN−1)
性质3:根据性质2,以下极限必定存在:
H
∞
(
X
)
=
lim
N
→
∞
H
N
(
X
)
H_{\infty}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X})
H∞(X)=limN→∞HN(X),
H
∞
(
X
)
H_{\infty}(\boldsymbol{X})
H∞(X)称为信源X的熵率
冗余度 :
log
K
−
H
∞
(
X
)
\log K-H_{\infty}(\boldsymbol{X})
logK−H∞(X),
相对冗余度 :
1
−
H
∞
(
X
)
log
K
1-\frac{H_{\infty}(\boldsymbol{X})}{\log K}
1−logKH∞(X),
H
(
X
)
log
K
\frac{H(\boldsymbol{X})}{\log K}
logKH(X)称为熵率.
性质4:对于离散平稳信源
(
X
1
X
2
⋯
X
L
;
p
(
x
)
)
\left(X_{1} X_{2} \cdots X_{L} ; p(x)\right)
(X1X2⋯XL;p(x)) 进行
D
D
D 元变长编码.
∀
ε
>
0
\forall \varepsilon>0
∀ε>0, 则
∃
L
(
ε
)
\exists L(\varepsilon)
∃L(ε), 使得当
L
>
L
(
ε
)
L>L(\varepsilon)
L>L(ε) 时, 存在唯一可译码, 使得平均每个信源符号所需码字的平均长度满足:
H
∞
(
X
)
log
D
⩽
n
ˉ
⩽
H
∞
(
X
)
log
D
+
ε
.
\frac{H_{\infty}(\boldsymbol{X})}{\log D} \leqslant \bar{n} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log D}+\varepsilon .
logDH∞(X)⩽nˉ⩽logDH∞(X)+ε.
马尔可夫信源:
马尔可夫序列:
P
(
X
n
+
1
=
x
n
+
1
∣
X
n
=
x
n
,
⋯
,
X
1
=
x
1
)
=
P
(
X
n
+
1
=
x
n
+
1
∣
X
n
=
x
n
)
\begin{aligned} P\left(X_{n+1}\right.&\left.=x_{n+1} \mid X_{n}=x_{n}, \cdots, X_{1}=x_{1}\right) \\ &=P\left(X_{n+1}=x_{n+1} \mid X_{n}=x_{n}\right) \end{aligned}
P(Xn+1=xn+1∣Xn=xn,⋯,X1=x1)=P(Xn+1=xn+1∣Xn=xn)
马尔可夫信源:符号集+状态集:每次发出符号后状态会改变。满足以下条件的信源称为马尔可夫信源:
(1)某一时刻信源符号的输出只与当前的信源状态有关, 而与之前的状态无关, 即
P
(
x
l
=
a
k
∣
u
l
=
s
j
,
x
l
−
1
=
a
k
,
u
l
−
1
=
s
i
,
⋯
)
=
P
(
x
l
=
a
k
∣
u
l
=
s
j
)
P\left(x_{l}=a_{k} \mid u_{l}=s_{j}, x_{l-1}=a_{k}, u_{l-1}=s_{i}, \cdots\right)=P\left(x_{l}=a_{k} \mid u_{l}=s_{j}\right)
P(xl=ak∣ul=sj,xl−1=ak,ul−1=si,⋯)=P(xl=ak∣ul=sj)
(2) 信源状态只由当前输出符号和前一时刻信源状态唯一确定, 即
P
(
u
l
=
s
i
∣
x
1
=
a
k
,
u
1
−
1
=
s
j
)
=
{
1
0
}
P\left(u_{l}=s_{i} \mid x_{1}=a_{k}, u_{1-1}=s_{j}\right)=\left\{\begin{array}{l} 1 \\ 0 \end{array}\right\}
P(ul=si∣x1=ak,u1−1=sj)={10}
马尔可夫在状态转移矩阵P下的不变分布称为稳态分布。
在给定信源状态
S
=
j
S=j
S=j 之下的条件熵为
H
(
X
∣
S
=
j
)
=
−
∑
K
p
j
(
a
k
)
log
p
j
(
a
k
)
H(\boldsymbol{X} \mid S=j)=-\sum^{K} p_{j}\left(a_{k}\right) \log p_{j}\left(a_{k}\right)
H(X∣S=j)=−∑Kpj(ak)logpj(ak)
信源熵为:
H
=
H
(
X
∣
S
)
=
∑
j
=
1
j
P
(
S
=
j
)
H
(
X
∣
S
=
j
)
H=H(\boldsymbol{X} \mid S)=\sum_{j=1}^{j} P(S=j) H(\boldsymbol{X} \mid S=j)
H=H(X∣S)=∑j=1jP(S=j)H(X∣S=j)
性质1:马尔可夫信源的熵率:
H
∞
(
X
)
=
H
(
X
∣
S
)
H_{\infty}(\boldsymbol{X})=H(\boldsymbol{X} \mid S)
H∞(X)=H(X∣S)
性质2:马尔可夫信源的变长编码定理:当用
J
J
J 个字母的码字母表对墒率为
H
∞
(
X
)
H_{\infty}(\boldsymbol{X})
H∞(X) 的离散马尔可夫信源进行变长编码时, 其平均码长
l
ˉ
\bar{l}
lˉ 满 足:
H
∞
(
X
)
log
J
⩽
l
ˉ
⩽
H
∞
(
X
)
log
J
+
1
N
,
\frac{H_{\infty}(\boldsymbol{X})}{\log J} \leqslant \bar{l} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log J}+\frac{1}{N},
logJH∞(X)⩽lˉ⩽logJH∞(X)+N1,
其中
N
N
N 为信源字母分组的长度.