熵、相对熵与互信息
熵
熵
信息是对不确定性的消除。熵是随机变量不确定度的度量。设
X
X
X是一个离散型随机变量,其字母的取值空间为
X
\mathcal{X}
X,概率密度函数
p
(
x
)
=
P
r
(
X
=
x
)
,
x
∈
X
p(x)=Pr(X=x),x \in \mathcal{X}
p(x)=Pr(X=x),x∈X。
一个离散型随机变量
X
X
X的熵
H
(
X
)
H(X)
H(X)定义为
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
log
2
p
(
x
)
H(X) = - \sum_{x\in \mathcal{X}} p(x) \log_2 {p(x)}
H(X)=−x∈X∑p(x)log2p(x)
也记作
H
(
p
)
H(p)
H(p)。对数的底为2
,熵的单位用比特表示。
如果使用底为
b
b
b的对数,则相应的熵记为
H
b
(
x
)
H_b(x)
Hb(x)。当对数底为
e
e
e时,熵的单位用奈特nat
表示。
E
p
g
(
x
)
=
∑
x
∈
χ
g
(
x
)
p
(
x
)
E_pg(x) = \sum_{x\in \chi} g(x)p(x)
Epg(x)=x∈χ∑g(x)p(x)
X
X
X的熵又可解释为随机变量
log
1
p
(
X
)
\log \frac{1}{p(X)}
logp(X)1的数学期望,
H
(
X
)
=
E
p
log
1
p
(
X
)
H(X)=E_p \log{\frac 1 {p(X)}}
H(X)=Eplogp(X)1
- 非负性: H ( X ) ≥ 0 H(X) \geq 0 H(X)≥0
- 换底公式: H b ( X ) = ( log b a ) H a ( X ) H_b(X)=(\log_b a)H_a(X) Hb(X)=(logba)Ha(X)
- 可加性/熵的链式法则: H ( X 1 , X 2 , ⋯ , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯ , X 1 ) H(X_1,X_2,\cdots,X_n)=\sum_{i=1}^n H(X_i \mid X_{i-1},\cdots,X_1) H(X1,X2,⋯,Xn)=∑i=1nH(Xi∣Xi−1,⋯,X1)
- 最大离散熵定理
H ( X ) ≤ log ∣ X ∣ H(X) \leq \log \mid \mathcal X\mid H(X)≤log∣X∣,其中 log ∣ X ∣ \log \mid \mathcal X \mid log∣X∣表示字母表或定义域集合 X \mathcal X X中元素的个数,当且仅当X服从 X \mathcal X X上的均匀分布,等号成立。 - 熵的独立界
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn服从 p ( x 1 , x 2 , ⋯ , x n ) p(x_1,x_2,\cdots,x_n) p(x1,x2,⋯,xn),则
H ( X 1 , X 2 , ⋯ , X n ) ≤ ∑ i = 1 n H ( X i ) H(X_1,X_2,\cdots,X_n) \leq \sum_{i=1}^n H(X_i) H(X1,X2,⋯,Xn)≤i=1∑nH(Xi)
当且仅当 X i X_i Xi相互独立,等号成立
联合熵
对于服从联合分布
p
(
x
,
y
)
p(x,y)
p(x,y)的一对离散随机变量
(
X
,
Y
)
(X,Y)
(X,Y),其联合熵
H
(
X
,
Y
)
H(X,Y)
H(X,Y) joint entropy
:
H
(
X
,
Y
)
=
−
∑
x
∈
χ
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
=
−
E
log
p
(
X
,
Y
)
H(X,Y) = - \sum_{x\in \chi} \sum_{y\in Y} p(x,y) \log p(x,y)=-E\log p(X,Y)
H(X,Y)=−x∈χ∑y∈Y∑p(x,y)logp(x,y)=−Elogp(X,Y)
条件熵
若
(
X
,
Y
)
∼
p
(
x
,
y
)
(X,Y) \sim p(x,y)
(X,Y)∼p(x,y),条件熵conditional entropy
H
(
Y
∣
X
)
H(Y \mid X)
H(Y∣X)定义为
H
(
Y
∣
X
)
=
∑
x
∈
χ
p
(
x
)
H
(
Y
∣
X
=
x
)
=
−
∑
x
∈
χ
p
(
x
)
∑
y
∈
Y
p
(
y
∣
x
)
log
p
(
y
∣
x
)
=
−
∑
x
∈
χ
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
y
∣
x
)
=
−
E
log
p
(
Y
∣
X
)
H(Y \mid X)= \sum_{x\in \chi}p(x) H(Y\mid X=x) \\= -\sum_{x\in \chi}p(x) \sum_{y\in Y}p(y\mid x)\log p(y \mid x)\\ = - \sum_{x \in \chi} \sum_{y\in Y}p(x,y) \log p(y \mid x) = -E \log p(Y \mid X)
H(Y∣X)=x∈χ∑p(x)H(Y∣X=x)=−x∈χ∑p(x)y∈Y∑p(y∣x)logp(y∣x)=−x∈χ∑y∈Y∑p(x,y)logp(y∣x)=−Elogp(Y∣X)
- 条件作用使熵减小,信息不会有负面影响: H ( X ∣ Y ) ≤ H ( X ) H(X \mid Y) \leq H(X) H(X∣Y)≤H(X)
- 可加性/链式法则:
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) ⟺ log p ( X , Y ) = log p ( X ) + log p ( y ∣ x ) H(X,Y) = H(X)+ H(Y \mid X) \iff \log p(X,Y) = \log p(X) + \log p(y \mid x) H(X,Y)=H(X)+H(Y∣X)⟺logp(X,Y)=logp(X)+logp(y∣x)
H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y \mid Z) = H(X \mid Z) + H(Y \mid X,Z) H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
互信息
互信息
它是一个随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
数学展开表达式
I
(
X
;
Y
)
=
∑
x
∈
χ
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
E
p
(
x
,
y
)
log
p
(
X
,
Y
)
p
(
X
)
p
(
Y
)
I(X;Y)=\sum_{x\in \chi} \sum_{y\in \mathcal{Y}}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\=E_{p(x,y)}\log\frac{p(X,Y)}{p(X)p(Y)}
I(X;Y)=x∈χ∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=Ep(x,y)logp(X)p(Y)p(X,Y)
- I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y)=H(Y)-H(Y\mid X) I(X;Y)=H(Y)−H(Y∣X)
- I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y)=H(X)+H(Y)-H(X,Y) I(X;Y)=H(X)+H(Y)−H(X,Y)
- I ( X ; Y ) = I ( Y ; X ) I(X;Y)=I(Y;X) I(X;Y)=I(Y;X)
- 若 X X X和 Y Y Y独立, I ( X ; Y ) = 0 I(X;Y)=0 I(X;Y)=0
- 若 X X X和 Y Y Y一一映射,则 I ( X ; Y ) = H ( X ) I(X;Y)=H(X) I(X;Y)=H(X)
- 非负性: I ( X ; Y ) ≥ 0 I(X;Y) \geq 0 I(X;Y)≥0,了解一个随机变量对于了解另一个随机变量总有一些帮助
- 极值性: I ( X ; Y ) ≤ min { H ( X ) , H ( Y ) } I(X;Y) \leq \min\{H(X),H(Y)\} I(X;Y)≤min{H(X),H(Y)},两个随机变量的互信息不可能比自身还大
- 可加性/链式法则: I ( X 1 , X 2 , ⋯ , X n ; Y ) = ∑ i = 1 n I ( X i ; Y ∣ X i − 1 , ⋯ , X 1 ) I(X_1,X_2,\cdots,X_n;Y)=\sum_{i=1}^n I(X_i;Y \mid X_{i-1},\cdots,X_1) I(X1,X2,⋯,Xn;Y)=∑i=1nI(Xi;Y∣Xi−1,⋯,X1)
- 随机变量与其自身的互信息为该随机变量的熵,所以熵有时候称为自信息
self-information
, H ( X ; X ) = H ( X ) H(X;X)=H(X) H(X;X)=H(X)
条件互信息
随机变量
X
X
X和
Y
Y
Y在给定随机变量
Z
Z
Z时的条件互信息conditional mutual information
I
(
X
;
Y
∣
Z
)
=
H
(
X
∣
Z
)
−
H
(
X
∣
Y
,
Z
)
=
E
p
(
x
,
y
,
z
)
log
p
(
X
,
Y
∣
Z
)
p
(
X
∣
Z
)
p
(
Y
∣
Z
)
I(X;Y \mid Z) = H(X \mid Z) - H(X \mid Y,Z) =E_{p(x,y,z)} \log \frac{p(X,Y \mid Z)}{p(X \mid Z)p(Y \mid Z)}
I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)=Ep(x,y,z)logp(X∣Z)p(Y∣Z)p(X,Y∣Z)
相对熵
相对熵
相对熵时两个随机分布之间距离的度量,又称鉴别信息。相对熵
D
(
p
∣
∣
q
)
D(p \mid \mid q)
D(p∣∣q)度量当真实分布为
p
p
p而假定分布为
p
p
p时的无效性。
D
(
p
∣
∣
q
)
=
∑
x
∈
χ
p
(
x
)
log
p
(
x
)
q
(
x
)
=
E
p
log
p
(
X
)
q
(
X
)
D(p \mid\mid q) = \sum_{x\in \chi}p(x) \log\frac{p(x)}{q(x)}= E_p \log \frac{p(X)}{q(X)}
D(p∣∣q)=x∈χ∑p(x)logq(x)p(x)=Eplogq(X)p(X)
- 非负性/信息不等式: D ( p ∣ ∣ q ) ≥ 0 D(p \mid\mid q) \geq 0 D(p∣∣q)≥0
- 不是严格的距离函数:不满足对称性和三角不等式
- H ( X ) = log ∣ X ∣ − D ( p ∣ ∣ u ) H(X) = \log \mid \mathcal X \mid - D(p\mid\mid u) H(X)=log∣X∣−D(p∣∣u)
- I ( X ; Y ) = D ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) I(X;Y) = D(p(x,y)\mid\mid p(x)p(y)) I(X;Y)=D(p(x,y)∣∣p(x)p(y))
条件相对熵
条件相对熵conditional relative entropy
:
D
(
p
(
y
∣
x
)
∣
∣
q
(
y
∣
x
)
)
D(p(y\mid x) \mid\mid q(y\mid x))
D(p(y∣x)∣∣q(y∣x))定义为条件概率密度函数
p
(
y
∣
x
)
p(y\mid x)
p(y∣x)和
q
(
y
∣
x
)
q(y\mid x)
q(y∣x)之间的平均相对熵,其中取平均时关于概率密度函数
p
(
x
)
p(x)
p(x)而言的
D
(
p
(
y
∣
x
)
∣
∣
q
(
y
∣
x
)
)
=
∑
x
p
(
x
)
∑
y
p
(
y
∣
x
)
log
p
(
y
∣
x
)
q
(
y
∣
x
)
=
E
p
(
x
,
y
)
log
p
(
Y
∣
X
)
q
(
Y
∣
X
)
D(p(y\mid x) \mid\mid q(y\mid x)) = \sum_x p(x) \sum_y p(y\mid x) \log \frac{p(y\mid x)}{q(y\mid x)}=E_{p(x,y)}\log \frac{p(Y\mid X)}{q(Y\mid X)}
D(p(y∣x)∣∣q(y∣x))=x∑p(x)y∑p(y∣x)logq(y∣x)p(y∣x)=Ep(x,y)logq(Y∣X)p(Y∣X)
- D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) ≥ 0 D(p(y\mid x)\mid\mid q(y\mid x)) \geq 0 D(p(y∣x)∣∣q(y∣x))≥0,当且仅当对任意y以及满足 p ( x ) > 0 p(x)>0 p(x)>0的 x x x,有 p ( y ∣ x ) = q ( y ∣ x ) p(y\mid x) = q(y\mid x) p(y∣x)=q(y∣x),等号成立
- I ( X ; Y ∣ Z ) ≥ 0 I(X;Y\mid Z) \geq 0 I(X;Y∣Z)≥0,当且仅当对给定随机变量 Z Z Z, X X X和 Y Y Y是条件独立的,等号成立
- 可加性/相对熵的链式法则
D ( p ( x , y ) ∣ ∣ q ( x , y ) ) = D ( p ( x ) ∣ ∣ q ( x ) ) + D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) D(p(x,y) \mid\mid q(x,y))=D(p(x)\mid\mid q(x)) + D(p(y\mid x)\mid\mid q(y\mid x)) D(p(x,y)∣∣q(x,y))=D(p(x)∣∣q(x))+D(p(y∣x)∣∣q(y∣x))
凸函数
如果函数总是位于任何一条弦的下面,则该函数是下凸的;如果函数总是位于任何一条弦的上面,则该函数是上凸。
Jensen不等式
若给定下凸函数
f
f
f和一个随机变量
X
X
X,则
E
f
(
X
)
≥
f
(
E
X
)
Ef(X) \geq f(EX)
Ef(X)≥f(EX)
若
f
f
f是严格下凸的,等号成立
X
=
E
X
X=EX
X=EX
对数和不等式及其应用
对数和不等式
对于非负数
a
1
,
a
2
,
⋯
,
a
n
a_1,a_2,\cdots,a_n
a1,a2,⋯,an和
b
1
,
b
2
,
⋯
,
b
n
b_1,b_2,\cdots,b_n
b1,b2,⋯,bn,
∑
i
=
1
n
a
i
log
a
i
b
i
≥
(
∑
i
=
1
n
a
i
)
log
∑
i
=
1
n
a
i
∑
i
=
1
n
b
i
\sum_{i=1}^n a_i \log \frac{a_i}{b_i} \geq (\sum_{i=1}^n a_i) \log \frac{\sum_{i=1}^n a_i}{\sum_{i=1}^n b_i}
i=1∑nailogbiai≥(i=1∑nai)log∑i=1nbi∑i=1nai
当且仅当
a
i
b
i
=
C
\frac{a_i}{b_i}=C
biai=C,等号成立
相对熵的凸性
D
(
p
∣
∣
q
)
D(p\mid \mid q)
D(p∣∣q)关于对
(
p
,
q
)
(p,q)
(p,q)是下凸的,即如果
(
p
1
,
q
1
)
(p_1,q_1)
(p1,q1)和
(
p
2
,
q
2
)
(p_2,q_2)
(p2,q2)为两对概率密度函数,则对所有的
0
≤
λ
1
0 \leq \lambda 1
0≤λ1,有
D
(
λ
p
1
+
(
1
−
λ
)
p
2
∣
∣
λ
q
1
+
(
1
−
λ
)
q
2
)
≤
λ
D
(
p
1
∣
∣
q
1
)
+
(
1
−
λ
)
D
(
p
2
∣
∣
q
2
)
D(\lambda p_1 +(1- \lambda)p_2 \mid\mid \lambda q_1+(1-\lambda)q_2) \leq \lambda D(p_1\mid\mid q_1) + (1-\lambda) D(p_2 \mid\mid q_2)
D(λp1+(1−λ)p2∣∣λq1+(1−λ)q2)≤λD(p1∣∣q1)+(1−λ)D(p2∣∣q2)
熵的凸性
H ( p ) H(p) H(p)是关于 p p p的上凸函数
互信息的凹凸性
设 ( X , Y ) ∼ p ( x , y ) = p ( x ) p ( y ∣ x ) (X,Y) \sim p(x,y)=p(x)p(y\mid x) (X,Y)∼p(x,y)=p(x)p(y∣x)。如果固定 p ( y ∣ x ) p(y\mid x) p(y∣x),则互信息 I ( X ; Y ) I(X;Y) I(X;Y)是关于 p ( x ) p(x) p(x)的上凸函数;而如果固定 p ( x ) p(x) p(x),则互信息 I ( X ; Y ) I(X;Y) I(X;Y)是关于 p ( y ∣ x ) p(y\mid x) p(y∣x)的下凸函数。
数据处理不等式
数据处理不等式说明,不存在对数据的优良操作能使从数据中所获得的推理得到改善。
马尔可夫链
如果
Z
Z
Z的条件分布仅依赖于Y的分布,而与X是条件独立的,则称随机变量
X
,
Y
,
Z
X,Y,Z
X,Y,Z依序构成马尔可夫链,记为
X
→
Y
→
Z
X \rightarrow Y \rightarrow Z
X→Y→Z。可构成马尔可夫链的数学定义是
p
(
x
,
y
,
z
)
=
p
(
x
)
p
(
y
∣
x
)
p
(
z
∣
y
)
p(x,y,z) = p(x) p(y\mid x) p(z\mid y)
p(x,y,z)=p(x)p(y∣x)p(z∣y)
数据处理不等式
若 X → Y → Z X \rightarrow Y \rightarrow Z X→Y→Z,则有 I ( X ; Y ) ≥ I ( X ; Z ) I(X;Y) \geq I(X;Z) I(X;Y)≥I(X;Z)
- 如果 Z = g ( Y ) Z=g(Y) Z=g(Y),则 I ( X ; Y ) ≥ I ( X ; g ( Y ) ) I(X;Y) \geq I(X;g(Y)) I(X;Y)≥I(X;g(Y)),即数据Y的函数不会增加X的信息量
- 如果 X → Y → Z X \rightarrow Y \rightarrow Z X→Y→Z,则 I ( X ; Y ∣ Z ) ≤ I ( X ; Y ) I(X;Y \mid Z) \le I(X;Y) I(X;Y∣Z)≤I(X;Y)
充分统计量
假定有一族以参数
θ
\theta
θ指示的概率密度函数
{
f
θ
(
x
)
}
\{f_\theta(x)\}
{fθ(x)},设
X
X
X是从其中一个分布抽取的样本。设
T
(
X
)
T(X)
T(X)为任意一个统计量,如样本均值或样本方差,那么
θ
→
X
→
T
(
X
)
\theta \rightarrow X \rightarrow T(X)
θ→X→T(X),且由数据处理不等式,对于
θ
\theta
θ的任何分布,有
I
(
θ
;
T
(
X
)
)
≤
I
(
θ
;
X
)
I(\theta;T(X)) \leq I(\theta;X)
I(θ;T(X))≤I(θ;X)
若等号成立,表明无信息损失。
如果
T
(
X
)
T(X)
T(X)包含了
X
X
X所含的关于
θ
\theta
θ的全部信息,则称该统计量
T
(
X
)
T(X)
T(X)关于
θ
\theta
θ是充分的。
- 如果对
θ
\theta
θ的任何分布,在给定
T
(
X
)
T(X)
T(X)的情况下,
X
X
X独立于
θ
\theta
θ,即
(
θ
→
T
(
X
)
→
X
)
(\theta \rightarrow T(X) \rightarrow X)
(θ→T(X)→X)构成马尔可夫链,则称函数
T
(
X
)
T(X)
T(X)是关于分布族
{
f
θ
(
x
)
}
\{f_\theta (x)\}
{fθ(x)}的充分统计量(
sufficient statistic
),即 I ( θ ; X ) = I ( θ ; T ( X ) ) I(\theta;X)=I(\theta;T(X)) I(θ;X)=I(θ;T(X)) - 如果一个充分统计量
T
(
X
)
T(X)
T(X)是其他所有充分统计量
U
U
U的函数,则称
T
(
X
)
T(X)
T(X)是关于
{
f
θ
(
x
)
}
\{f_\theta (x)\}
{fθ(x)}的最小充分统计量(
minimal sufficient statistic
),即 θ → T ( X ) → U ( X ) → X \theta \rightarrow T(X) \rightarrow U(X) \rightarrow X θ→T(X)→U(X)→X
费诺不等式
假定知道随机变量
Y
Y
Y,想进一步推测与之相关的随机变量
X
X
X的值。费诺不等式将推测随机变量X的误差概率与它的条件熵
H
(
X
∣
Y
)
H(X \mid Y)
H(X∣Y)联系到一起。
对任何满足
X
→
Y
→
X
^
X \rightarrow Y \rightarrow \hat{X}
X→Y→X^的估计量
X
^
\hat X
X^,设
P
e
=
Pr
{
X
≠
X
^
}
P_e=\Pr \{X \neq \hat X\}
Pe=Pr{X=X^},有
H
(
P
e
)
+
P
e
log
∣
X
∣
≥
H
(
X
∣
X
^
)
≥
H
(
X
∣
Y
)
H(P_e) + P_e \log \mid \mathcal X \mid \geq H(X \mid \hat X) \geq H(X \mid Y)
H(Pe)+Pelog∣X∣≥H(X∣X^)≥H(X∣Y)
- 对任意两个随机变量 X X X和 Y Y Y,设 p = Pr ( X ≠ Y ) p=\Pr(X \neq Y) p=Pr(X=Y), H ( p ) + p log ∣ X ∣ ≥ H ( X ∣ Y ) H(p)+p\log \mid \mathcal X \mid \geq H(X \mid Y) H(p)+plog∣X∣≥H(X∣Y)
- 设 P e = Pr ( X ≠ X ^ ) , X ^ : Y → X P_e = \Pr (X \neq \hat X),\hat X:\mathcal Y \rightarrow \mathcal X Pe=Pr(X=X^),X^:Y→X,则 H ( P e ) + P e log ( ∣ X ∣ − 1 ) ≥ H ( X ∣ Y ) H(P_e)+P_e \log(\mid \mathcal X \mid -1) \geq H(X\mid Y) H(Pe)+Pelog(∣X∣−1)≥H(X∣Y)
- 如果 X X X和 X ′ X' X′独立同分布,具有熵 H ( X ) H(X) H(X),则 Pr ( X = X ′ ) ≥ 2 − H ( X ) \Pr(X = X') \geq 2^{-H(X)} Pr(X=X′)≥2−H(X),仅当 X X X服从均匀分布,等号成立
渐进均分性
渐进均分性定理
若
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots ,X_n
X1,X2,⋯,Xn为
i
.
i
.
d
∼
p
(
x
)
i.i.d \sim p(x)
i.i.d∼p(x),则
−
1
n
log
p
(
X
1
,
X
2
,
⋯
,
X
n
)
→
H
(
X
)
(AEP)
-\frac 1 n \log p(X_1,X_2,\cdots,X_n) \rightarrow H(X) \tag{AEP}
−n1logp(X1,X2,⋯,Xn)→H(X)(AEP)
关于
p
(
X
)
p(X)
p(X)的典型集
A
ε
(
n
)
A_{\varepsilon}^{(n)}
Aε(n)是序列
(
x
1
,
x
2
,
⋯
,
x
n
)
∈
X
n
(x_1,x_2,\cdots,x_n) \in \mathcal X^n
(x1,x2,⋯,xn)∈Xn的集合,且满足性质
2
−
n
(
H
(
X
)
+
ε
)
≤
p
(
x
1
,
x
2
,
⋯
,
x
n
)
≤
2
−
n
(
H
(
X
)
−
ε
)
2^{-n(H(X)+\varepsilon)} \leq p(x_1,x_2,\cdots,x_n) \leq 2^{-n(H(X)-\varepsilon)}
2−n(H(X)+ε)≤p(x1,x2,⋯,xn)≤2−n(H(X)−ε)
可以证明典型集
A
ε
(
n
)
A^{(n)}_\varepsilon
Aε(n)有如下性质:
- 如果 ( x 1 , x 2 , ⋯ , x n ) ∈ A ε ( n ) (x_1,x_2,\cdots,x_n) \in A_\varepsilon^{(n)} (x1,x2,⋯,xn)∈Aε(n),则 H ( X ) − ε ≤ − 1 n log p ( x 1 , x 2 , ⋯ , x n ) ≤ H ( X ) + ε H(X)-\varepsilon \leq -\frac 1n \log p(x_1,x_2,\cdots,x_n) \leq H(X) + \varepsilon H(X)−ε≤−n1logp(x1,x2,⋯,xn)≤H(X)+ε
- 当 n n n充分大时, Pr { A ε ( n ) } > 1 − ε \Pr \{A_\varepsilon ^{(n)}\} > 1- \varepsilon Pr{Aε(n)}>1−ε
- ∣ A ε ( n ) ∣ ≤ 2 n ( H ( X ) + ε ) \mid A_\varepsilon^{(n)} \mid \leq 2^{n(H(X)+\varepsilon)} ∣Aε(n)∣≤2n(H(X)+ε)
- 当 n n n充分大时, ∣ A ε ( n ) ∣ ≥ ( 1 − ε ) 2 n ( H ( X ) − ε ) \mid A_\varepsilon^{(n)}\mid \geq (1-\varepsilon)2^{n(H(X)-\varepsilon)} ∣Aε(n)∣≥(1−ε)2n(H(X)−ε)
由此可知,典型集的概率近似为1,典型集中的所有元素几乎是等可能的,且典型集的元素个数近似等于 2 n H 2^{nH} 2nH
AEP的推论:数据压缩
设
X
n
X^n
Xn为服从
p
(
x
)
p(x)
p(x)的
i
.
i
.
d
i.i.d
i.i.d序列,
ε
>
0
\varepsilon>0
ε>0,则存在一个编码将长度为n的序列
x
n
x^n
xn映射为比特串,使得映射是
1
−
1
1-1
1−1的,且对于充分大的
n
n
n,有
E
[
1
n
l
(
X
n
)
]
≤
H
(
X
)
+
ε
(香农第一定理)
E[\frac 1 n l(X^n)] \leq H(X) + \varepsilon \tag{香农第一定理}
E[n1l(Xn)]≤H(X)+ε(香农第一定理)
因而在平均意义上,用
n
H
(
X
)
nH(X)
nH(X)比特科表示序列
X
n
X^n
Xn。该定理又称信源无失真定长编码定理
高概率集与典型集
设
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots ,X_n
X1,X2,⋯,Xn为
i
.
i
.
d
∼
p
(
x
)
i.i.d \sim p(x)
i.i.d∼p(x)。对
δ
<
1
2
\delta < \frac 12
δ<21,设
B
δ
(
n
)
⊂
X
n
B_\delta^{(n) } \subset \mathcal X^n
Bδ(n)⊂Xn为使
Pr
{
B
δ
(
n
)
}
≥
1
−
δ
\Pr \{B_\delta^{(n) }\} \geq 1 - \delta
Pr{Bδ(n)}≥1−δ成立的最小集合,则
∣
B
δ
(
n
)
∣
=
2
n
H
\mid B_\delta^{(n)} \mid = 2^{nH}
∣Bδ(n)∣=2nH
随机过程的熵率
TODO
数据压缩
编码的概念
信源编码
关于随机变量 X X X的信源编码 C C C是从 X X X的取值空间 X \mathcal X X到 D ∗ \mathcal D ^* D∗的一个映射,其中 D ∗ \mathcal D ^* D∗表示 D D D元字母表 D \mathcal D D上有限长度的字符串所构成的集合。用 C ( x ) C(x) C(x)表示 x x x的码字并用 l ( x ) l(x) l(x)表示 C ( x ) C(x) C(x)的长度。
期望长度
设随机变量
X
X
X的概率密度函数为
p
(
x
)
p(x)
p(x),
l
(
x
)
l(x)
l(x)为对应于
x
x
x的码字长度,定义信源编码
C
(
x
)
C(x)
C(x)的期望长度
L
(
C
)
L(C)
L(C)为
L
(
C
)
=
∑
x
∈
X
p
(
x
)
l
(
x
)
L(C)=\sum_{x \in \mathcal X} p(x)l(x)
L(C)=x∈X∑p(x)l(x)
非奇异编码
如果编码将
X
X
X的取值空间中的每个元素映射称
D
∗
\mathcal D ^*
D∗中的不同字符串,即
x
≠
x
′
⇒
C
(
x
)
≠
C
(
x
′
)
x \neq x' \Rightarrow C(x) \neq C(x')
x=x′⇒C(x)=C(x′)
则称这个编码是非奇异的
扩展编码
编码
C
C
C的扩展
C
∗
C^*
C∗是从
X
\mathcal X
X上的有限长字符串到
D
\mathcal D
D上的有限长字符串的映射,定义为
C
(
x
1
x
2
⋯
x
n
)
=
C
(
x
1
)
C
(
x
2
)
⋯
C
(
x
n
)
C(x_1 x_2 \cdots x_n) = C(x_1)C(x_2)\cdots C(x_n)
C(x1x2⋯xn)=C(x1)C(x2)⋯C(xn)
其中
C
(
x
1
)
C
(
x
2
)
⋯
C
(
x
n
)
C(x_1)C(x_2)\cdots C(x_n)
C(x1)C(x2)⋯C(xn)表示相应码字的串联。
唯一可译编码
如果一个编码的扩展编码是非奇异的,则称该编码是唯一可译的。
前缀码
若码中无任何码字是其他码字的前缀,则称该编码为前缀码或即时码。
Kraft不等式
- 对于 D D D元字母表上的即时码(前缀码),码字长度 l 1 , l 2 , ⋯ , l m l_1,l_2,\cdots,l_m l1,l2,⋯,lm必须满足不等式
∑ i D − l i ≤ 1 (Kraft不等式) \sum_{i} D^{-l_i} \leq 1 \tag{Kraft不等式} i∑D−li≤1(Kraft不等式)
反之,若给定满足以上不等式的一组码字长度,则存在一个相应的即时码,其码字长度就是给定的长度。
- 对任何构成前缀码的可数无限码字集,码字长度也满足推广的 K r a f t Kraft Kraft不等式
∑ i = 1 ∞ D − l i ≤ 1 (推广的Kraft不等式) \sum_{i=1}^\infty D^{-l_i} \leq 1 \tag{推广的Kraft不等式} i=1∑∞D−li≤1(推广的Kraft不等式)
反之,若给定满足推广的Kraft
不等式的
l
1
,
l
2
,
⋯
,
l_1,l_2,\cdots,
l1,l2,⋯,则可构造出具有相应码字长度的前缀码。
最优码
随机变量
X
X
X的任一
D
D
D元即时码的期望长度必定大于或等于熵
H
D
(
X
)
H_D(X)
HD(X),即
L
≥
H
D
(
X
)
L \geq H_D(X)
L≥HD(X)
当且仅当
D
−
l
i
=
p
i
D^{-l_i}=p_i
D−li=pi,等号成立。
对于某个
n
n
n,如果概率分布的每一个概率值均等于
D
−
n
D^{-n}
D−n,则称这个概率分布是
D
D
D进制的D-adic
。因此,当且仅当
X
X
X的分布式
D
D
D进制的,上述等号成立。
最优码长的界
-
设 l 1 ∗ , l 2 ∗ , ⋯ , l m ∗ l_1^*,l_2^*,\cdots,l_m^* l1∗,l2∗,⋯,lm∗是关于信源分布 p \pmb p p和一个 D D D元字母表的一组最优码长, L ∗ L^* L∗为最优码的相应期望长度 ( L ∗ = ∑ p i l i ∗ ) (L^*=\sum p_il_i^*) (L∗=∑pili∗),则
H D ( X ) ≤ L ∗ ≤ H D ( X ) + 1 H_D(X) \leq L^* \leq H_D(X)+1 HD(X)≤L∗≤HD(X)+1 -
每字符最小期望码字长满足
H ( X 1 , X 2 , ⋯ , X n ) n ≤ L n ∗ < H ( X 1 , X 2 , ⋯ , X n ) n + 1 n (分组前缀码) \frac {H(X_1,X_2,\cdots,X_n)}{n} \leq L_n^* <\frac{H(X_1,X_2,\cdots,X_n)}{n} +\frac 1n \tag{分组前缀码} nH(X1,X2,⋯,Xn)≤Ln∗<nH(X1,X2,⋯,Xn)+n1(分组前缀码)
进一步,若 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是平稳随机过程则
L n ∗ → H ( X ) L_n^* \rightarrow H(\mathcal X) Ln∗→H(X)
其中 H ( X ) H(\mathcal X) H(X)为随机过程的熵率。 -
(偏码
wrong code
)码字长度分配 l ( x ) = ⌈ log 1 q ( x ) ⌉ l(x) = \lceil \log \frac 1{q(x)} \rceil l(x)=⌈logq(x)1⌉(香农码)关于 p ( x ) p(x) p(x)的期望码长满足
H ( p ) + D ( p ∣ ∣ q ) ≤ E p l ( X ) < H ( p ) + D ( p ∣ ∣ q ) + 1 H(p) + D(p \mid\mid q) \leq E_pl(X) < H(p) + D(p\mid\mid q) +1 H(p)+D(p∣∣q)≤Epl(X)<H(p)+D(p∣∣q)+1
于是,若真实分布为 p ( x ) p(x) p(x),而编码使用的是非真实分布 q ( x ) q(x) q(x),则会导致期望描述长度增加 D ( p ∣ ∣ q ) D(p \mid \mid q) D(p∣∣q)。
唯一可译码的Kraft不等式
任意唯一可以的D元码的码字长度必然满足Kraft
不等式
∑
D
−
l
i
≤
1
(McMillan)
\sum D^{-l_i} \leq 1 \tag{McMillan}
∑D−li≤1(McMillan)
反之,若给定满足上述不等式的一组码字长度,则可以构造出具有同样码字长度的唯一可译码。
- 推论:无限信源字母表
X
\mathcal X
X的唯一可译码亦满足
Kraft
不等式。
这个定理说明:从码字长度集的角度考虑,唯一可译码类不能提供比前缀码类更优的选择。对唯一可译码与即时码而言,码字长度集是一样的。因而,当将允许的编码扩展到唯一可译码类的范畴,关于最优码字长度的界也是成立的。
霍夫曼编码
霍夫曼编码是最优前缀编码
信道容量
离散信道discret channel
是由输入字母表
X
\mathcal X
X,输出字母表
Y
\mathcal Y
Y和概率转移矩阵
p
(
y
∣
x
)
p(y \mid x)
p(y∣x)构成的系统,其中
p
(
y
∣
x
)
p(y\mid x)
p(y∣x)表示发送字符
x
x
x的条件下收到字符
y
y
y的概率。如果输出的概率分布仅依赖于他所对应的输入,而与先前信道的输入或者输出条件独立,就称这个信道是无记忆的memoryless
。
离散无记忆信道的"信息"信道容量channnel capacity
定义为
C
=
max
p
(
x
)
I
(
X
;
Y
)
C = \max_{p(x)} I(X;Y)
C=p(x)maxI(X;Y)
这里的最大值取自所有可能的输入分布
p
(
x
)
p(x)
p(x)
信道的例子
- 无噪声二元信道
- 无重叠输出的有噪声信道
- 有噪声的打字机信道
- 二元对称信道
- 二元擦除信道
对称信道
如果信道转移矩阵
p
(
y
∣
x
)
p(y\mid x)
p(y∣x)的任何两行互相置换;任何两列也互相置换,那么称该信道是对称的。如果转移矩阵的每一行
p
(
⋅
∣
x
)
p(\cdot \mid x)
p(⋅∣x)都是其他每行的置换,而所有列的元素和
∑
x
p
(
y
∣
x
)
\sum_x p(y\mid x)
∑xp(y∣x)相等,则称这个信道是弱对称的。
对于弱对称,包括对称信道,
C
=
log
∣
Y
∣
−
H
(
转移矩阵的行
)
C = \log \mid \mathcal Y \mid - H(转移矩阵的行)
C=log∣Y∣−H(转移矩阵的行)
当输入字母表上的分布为均匀时达到该容量。
信道容量的性质
- C ≥ 0 C \geq 0 C≥0
- C = max I ( X ; Y ) ≤ max H ( X ) ≤ log ∣ X ∣ C = \max I(X;Y) \leq \max H(X) \leq \log \mid \mathcal X\mid C=maxI(X;Y)≤maxH(X)≤log∣X∣
- C ≤ log ∣ Y ∣ C \leq \log \mid \mathcal Y \mid C≤log∣Y∣
- C = I ( X ; Y ) C=I(X;Y) C=I(X;Y)是关于 p ( x ) p(x) p(x)的连续函数
- C = I ( X ; Y ) C=I(X;Y) C=I(X;Y)是关于 p ( x ) p(x) p(x)的上凸函数
一些定义
- 用 ( X , p ( y ∣ x ) , Y ) (\mathcal X,p(y\mid x),\mathcal Y) (X,p(y∣x),Y)表示的离散信道由两个有限集 X \mathcal X X和 Y \mathcal Y Y以及一簇概率密度函数 p ( y ∣ x ) ( x ∈ X ) p(y \mid x)(x\in \mathcal X) p(y∣x)(x∈X)构成,其中对任意 x x x与 y y y,有 p ( y ∣ x ) ≥ 0 p(y\mid x) \geq 0 p(y∣x)≥0,以及对任意的 x x x,有 ∑ x p ( y ∣ x ) = 1 \sum_x p(y\mid x)=1 ∑xp(y∣x)=1,而 X X X和 Y Y Y分别看作信道的输入和输出。
- 离散无记忆信道
DMC
的 n n n次扩展是指信道 ( X n , p ( y n ∣ x n ) , Y n ) (\mathcal X^n,p(y^n\mid x^n),\mathcal Y^n) (Xn,p(yn∣xn),Yn),其中
p ( y k ∣ x k , y k − 1 ) = p ( y k ∣ x k ) , k = 1 , 2 , ⋯ , n p(y_k\mid x^k,y^{k-1}) = p(y_k \mid x_k),k=1,2,\cdots,n p(yk∣xk,yk−1)=p(yk∣xk),k=1,2,⋯,n - 信道
(
X
,
p
(
y
∣
x
)
,
Y
)
(\mathcal X,p(y\mid x),\mathcal Y)
(X,p(y∣x),Y)的
(
M
,
n
)
(M,n)
(M,n)码由以下几部分构成
- 下标集 { 1 , 2 , ⋯ , M } \{1,2,\cdots,M\} {1,2,⋯,M}
- 编码函数
X
n
:
{
1
,
2
,
⋯
,
M
}
→
X
n
X^n:\{1,2,\cdots,M\} \rightarrow \mathcal X^n
Xn:{1,2,⋯,M}→Xn,生成码字
x
n
(
1
)
,
x
n
(
2
)
,
⋯
,
x
n
(
M
)
x^n(1),x^n(2),\cdots,x^n(M)
xn(1),xn(2),⋯,xn(M)。所有码字的集合称为码簿
codebook
- 译码函数
g : Y n → { 1 , 2 , ⋯ , M } g:\mathcal Y^n \rightarrow \{1,2,\cdots,M\} g:Yn→{1,2,⋯,M}
它是一个确定性规则,为每个收到的字符向量指定一个猜测。
- 条件误差概率,设
λ i = Pr ( g ( Y n ) ≠ i ∣ X n = x n ( i ) ) = ∑ y n p ( y n ∣ x n ( i ) ) I ( g ( y n ) ≠ i ) \lambda_i = \Pr(g(Y^n) \neq i \mid X^n = x^n(i)) = \sum_{y^n} p(y^n\mid x^n(i))I(g(y^n) \neq i) λi=Pr(g(Yn)=i∣Xn=xn(i))=yn∑p(yn∣xn(i))I(g(yn)=i)
为已知下标 i i i被发送的条件下的条件误差概率conditional probability of error
,其中 I ( ⋅ ) I(\cdot) I(⋅)为示性函数。 -
(
M
,
n
)
(M,n)
(M,n)码的最大误差概率
λ
(
n
)
\lambda^{(n)}
λ(n)
maximum probability of error
定义为
λ ( n ) = max i ∈ ( 1 , 2 , ⋯ , M ) λ i \lambda^{(n)} = \max_{i \in (1,2,\cdots,M)} \lambda_i λ(n)=i∈(1,2,⋯,M)maxλi -
(
M
,
n
)
(M,n)
(M,n)码的平均误差概率
P
e
(
n
)
P_e^{(n)}
Pe(n)
average probability of error
定义为
P e ( n ) = 1 M ∑ i = 1 M λ i P_e^{(n)} = \frac 1M \sum_{i=1}^M \lambda_i Pe(n)=M1i=1∑Mλi
注意,如果原消息 W W W是从集合 { 1 , 2 , ⋯ , M } \{1,2,\cdots,M\} {1,2,⋯,M}中的均匀分布中选出的,以及 X n = x n ( W ) X^n=x^n(W) Xn=xn(W),则
P e ( n ) = Pr ( W ≠ g ( Y n ) ) ≤ λ ( n ) P_e^{(n)} = \Pr(W \neq g(Y^n)) \leq \lambda^{(n)} Pe(n)=Pr(W=g(Yn))≤λ(n) -
(
M
,
n
)
(M,n)
(M,n)码的码率
R
R
R
rate
为
R = log M n (比特 / 传输) R = \frac {\log M} {n} (比特/传输) R=nlogM(比特/传输) - 如果存在一个 ( ⌈ 2 n R ⌉ , n ) (\lceil 2^{nR} \rceil,n) (⌈2nR⌉,n)码序列,满足当$n \rightarrow 0 时,最大误差概率 时,最大误差概率 时,最大误差概率\lambda^{(n)} \rightarrow 0 , 则称码率 ,则称码率 ,则称码率R$是可达的
- 信道的容量定义为所有可达码率的上确界
联合典型序列
服从分布
p
(
x
,
y
)
p(x,y)
p(x,y)的联合典型序列
{
{
x
n
,
y
n
}
}
\{\{x^n,y^n\}\}
{{xn,yn}}所构成的集合
A
ε
(
n
)
A_\varepsilon^{(n)}
Aε(n)是满足下列条件的集合
A
ε
(
n
)
=
{
(
x
n
,
y
n
)
∈
X
n
×
Y
n
:
∣
−
1
n
log
p
(
x
n
)
−
H
(
X
)
∣
<
ε
∣
−
1
n
log
p
(
y
n
)
−
H
(
Y
)
∣
<
ε
∣
−
1
n
log
p
(
x
n
,
y
n
)
−
H
(
X
,
Y
)
∣
<
ε
}
\begin{aligned} A_\varepsilon^{(n)} = & \{(x^n,y^n)\in \mathcal X^n \times \mathcal Y^n: \\& \mid -\frac1n \log p(x^n) - H(X) \mid < \varepsilon \\& \mid -\frac1n \log p(y^n) - H(Y) \mid < \varepsilon \\& \mid -\frac1n \log p(x^n,y^n) - H(X,Y) \mid < \varepsilon \} \end{aligned}
Aε(n)={(xn,yn)∈Xn×Yn:∣−n1logp(xn)−H(X)∣<ε∣−n1logp(yn)−H(Y)∣<ε∣−n1logp(xn,yn)−H(X,Y)∣<ε}
其中
p
(
x
n
,
y
n
)
=
∏
i
=
1
n
p
(
x
i
,
y
i
)
p(x^n,y^n) = \prod_{i=1}^n p (x_i,y_i)
p(xn,yn)=i=1∏np(xi,yi)
(联合AEP
)设
(
X
n
,
Y
n
)
(X^n,Y^n)
(Xn,Yn)为服从
p
(
x
n
,
y
n
)
=
∏
i
=
1
n
p
(
x
i
,
y
i
)
p(x^n,y^n)=\prod_{i=1}^np(x_i,y_i)
p(xn,yn)=∏i=1np(xi,yi)的
i
.
i
.
d
i.i.d
i.i.d的
n
n
n长序列,则满足:
- 当 n → ∞ n \rightarrow \infty n→∞时, Pr ( ( X n , Y n ) ∈ A ε ( n ) ) → 1 \Pr((X^n,Y^n) \in A_\varepsilon^{(n)}) \rightarrow 1 Pr((Xn,Yn)∈Aε(n))→1
- ∣ A ε ( n ) ∣ ≤ 2 n ( H ( X , Y ) + ε ) \mid A_\varepsilon^{(n)} \mid \leq 2^{n(H(X,Y)+\varepsilon)} ∣Aε(n)∣≤2n(H(X,Y)+ε)
- 如果
(
X
~
n
,
Y
~
n
)
∼
p
(
x
n
)
p
(
y
n
)
(\tilde X^n,\tilde Y^n) \sim p(x^n)p(y^n)
(X~n,Y~n)∼p(xn)p(yn),即
X
~
n
\tilde X^n
X~n与
Y
~
n
\tilde Y^n
Y~n是独立的且与
p
(
x
n
,
y
n
)
p(x^n,y^n)
p(xn,yn)有相同的边缘分布,那么
Pr ( ( X ~ n , Y ~ n ) ∈ A ε ( n ) ) ≤ 2 − n ( I ( X ; Y ) − 3 ε ) \Pr((\tilde X^n,\tilde Y^n)\in A_\varepsilon^{(n)}) \leq 2^{-n(I(X;Y)-3\varepsilon)} Pr((X~n,Y~n)∈Aε(n))≤2−n(I(X;Y)−3ε)
而且对于充分大的 n n n,
Pr ( ( X ~ n , Y ~ n ) ∈ A ε ( n ) ) ≥ ( 1 − ε ) 2 − n ( I ( X ; Y ) + 3 ε ) \Pr((\tilde X^n,\tilde Y^n)\in A_\varepsilon^{(n)}) \geq (1-\varepsilon)2^{-n(I(X;Y)+3\varepsilon)} Pr((X~n,Y~n)∈Aε(n))≥(1−ε)2−n(I(X;Y)+3ε)
信道编码定理
对于离散无记忆信道,小于信道容量
C
C
C的所有码率都是可达的。具体来说,对任意码率
R
<
C
R < C
R<C,存在一个
(
2
n
R
,
n
)
(2^{nR},n)
(2nR,n)码序列,它的最大误差概率为
λ
(
n
)
→
0
\lambda^{(n)} \rightarrow 0
λ(n)→0
反之,任何满足
λ
(
n
)
→
0
\lambda^{(n)} \rightarrow 0
λ(n)→0的
(
2
n
R
,
n
)
(2^{nR},n)
(2nR,n)码序列必有
R
≤
C
R \leq C
R≤C。
这一定理又被称为香农第二定理
反馈容量
对于离散无记忆信道,反馈并不能增加信道容量,即 C F B = C C_{FB}=C CFB=C
信源信道定理
如果随机过程的熵
H
>
C
H>C
H>C,则该过程不能通过离散无记忆信道被可靠的传输。相反,如果随机过程满足AEP
,且
H
<
C
H<C
H<C,则信源可以被可靠的传输。
微分熵
h ( X ) = h ( f ) = − ∫ S f ( x ) log f ( x ) d x f ( X n ) = 2 − n h ( X ) V o l ( A ε ( n ) ) = 2 n h ( X ) h ( N ( 0 , σ 2 ) ) = 1 2 log 2 π e σ 2 h ( N n ( μ , K ) ) = 1 2 log ( 2 π e ) n ∣ K ∣ D ( f ∣ ∣ g ) = ∫ f log f i g ≥ 0 h ( X 1 , X 2 , ⋯ , X n ) = ∑ i = 1 n h ( X i ∣ X 1 , X 2 , ⋯ , X i − 1 ) h ( X ∣ Y ) ≤ h ( X ) h ( a X ) = h ( X ) + log ∣ a ∣ I ( X ; Y ) = ∫ f ( x , y ) log f ( x , y ) f ( x ) f ( y ) ≥ 0 max E X X ′ = K h ( X ) = 1 2 log ( 2 π e ) n ∣ K ∣ E ( X − X ^ ( Y ) ) 2 ≥ 1 2 π e e 2 h ( X ∣ Y ) \begin{aligned} &h(X) = h(f) = -\int_S f(x) \log f(x)dx\\ &f(X^n)=2^{-nh(X)}\\ &Vol(A_\varepsilon^{(n)}) = 2^{nh(X)}\\ &h(\mathcal N(0,\sigma^2)) = \frac12 \log 2\pi e \sigma^2\\ &h(\mathcal N_n(\mu,K)) = \frac 12 \log (2\pi e)^n\mid K \mid\\ &D(f\mid\mid g) = \int f\log \frac fig \geq 0\\ &h(X_1,X_2,\cdots,X_n)= \sum_{i=1}^n h(X_i\mid X_1,X_2,\cdots,X_{i-1})\\ &h(X\mid Y) \leq h(X)\\ &h(aX) = h(X) + \log \mid a\mid\\ &I(X;Y)=\int f(x,y) \log \frac {f(x,y)}{f(x)f(y)} \geq 0\\ &\max_{E\pmb X\pmb X'=\pmb K}h(\pmb X) = \frac12 \log (2\pi e)^n \mid K \mid\\ &E(X-\hat{X}(Y))^2 \geq \frac1{2\pi e} e^{2h(X \mid Y)} \end{aligned} h(X)=h(f)=−∫Sf(x)logf(x)dxf(Xn)=2−nh(X)Vol(Aε(n))=2nh(X)h(N(0,σ2))=21log2πeσ2h(Nn(μ,K))=21log(2πe)n∣K∣D(f∣∣g)=∫flogifg≥0h(X1,X2,⋯,Xn)=i=1∑nh(Xi∣X1,X2,⋯,Xi−1)h(X∣Y)≤h(X)h(aX)=h(X)+log∣a∣I(X;Y)=∫f(x,y)logf(x)f(y)f(x,y)≥0EXX′=Kmaxh(X)=21log(2πe)n∣K∣E(X−X^(Y))2≥2πe1e2h(X∣Y)
- 2 n H ( X ) 2^{nH(X)} 2nH(X)是一个离散随机变量的有效字母表的大小
- 2 n h ( X ) 2^{nh(X)} 2nh(X)是一个连续随机变量的有效支撑集的大小
- 2 C 2^C 2C是一个容量为 C C C的信道的有效字母表的大小
高斯信道
- 最大熵
max E X 2 = α = 1 2 log 2 π e α \max_{EX^2=\alpha} = \frac 12 \log 2\pi e \alpha EX2=αmax=21log2πeα - 高斯信道
Y i = X i + Z i , Z i ∼ N ( 0 , N ) Y_i = X_i+Z_i,Z_i \sim \mathcal N(0,N) Yi=Xi+Zi,Zi∼N(0,N),且满足功率限制 1 n ∑ i = 1 n x i 2 ≤ P \frac 1n \sum_{i=1}^n x_i^2 \leq P n1∑i=1nxi2≤P,
C = 1 2 log ( 1 + P N ) (比特/传输) C = \frac 12 \log (1+\frac PN) \tag{比特/传输} C=21log(1+NP)(比特/传输) - 带宽有限的可加高斯白噪声信道
带宽为 W W W,双边功率谱密度为 N 0 / 2 N_0/2 N0/2,信号功率为 P P P,
C = W log ( 1 + P N 0 W ) (比特/秒) C = W\log (1+\frac P{N_0W}) \tag{比特/秒} C=Wlog(1+N0WP)(比特/秒) -
k
k
k级并联高斯信道
Y j = X j + Z j , j = 1 , 2 , ⋯ , k , Z j ∼ N ( 0 , N j ) , ∑ j = 1 k X j 2 ≤ P , Y_j=X_j+Z_j,j=1,2,\cdots,k,Z_j \sim \mathcal N(0,N_j),\sum_{j=1}^kX_j^2 \leq P, Yj=Xj+Zj,j=1,2,⋯,k,Zj∼N(0,Nj),∑j=1kXj2≤P,
C = ∑ i = 1 k 1 2 log ( 1 + ( v − N i ) + N i ) C = \sum_{i=1}^k \frac 12 \log(1+\frac{(v-N_i)^+}{N_i}) C=i=1∑k21log(1+Ni(v−Ni)+)
其中对 v v v的选取满足 ∑ ( v − N i ) + = n P \sum(v-N_i)^+=nP ∑(v−Ni)+=nP - 可加高斯非白噪声信道
Y i = X i + Z i , Z n ∼ N ( 0 , K Z ) Y_i=X_i+Z_i,Z^n\sim \mathcal N(0,K_Z) Yi=Xi+Zi,Zn∼N(0,KZ)
C = 1 n ∑ i = 1 n 1 2 log ( 1 + ( v − λ i ) + λ i ) C =\frac 1n \sum_{i=1}^n \frac 12 \log (1+\frac {(v-\lambda_i)^+}{\lambda_i}) C=n1i=1∑n21log(1+λi(v−λi)+)
其中 λ 1 , λ 2 , ⋯ , λ n ) \lambda_1,\lambda_2,\cdots,\lambda_n) λ1,λ2,⋯,λn)是 K Z K_Z KZ的特征值,且对 v v v的选取满足 ∑ i ( v − λ i ) + = P \sum_{i}(v-\lambda_i)^+=P ∑i(v−λi)+=P - 不带反馈容量
C n = max t r ( K X ) ≤ n P 1 2 n log ∣ K X + K Z ∣ ∣ K Z ∣ C_n = \max_{tr(K_X)\leq nP} \frac1{2n} \log \frac{\mid K_X+K_Z\mid}{\mid K_Z \mid} Cn=tr(KX)≤nPmax2n1log∣KZ∣∣KX+KZ∣ - 带反馈容量
C n , F B = max t r ( K X ) ≤ n P 1 2 n log ∣ K X + Z ∣ K Z ∣ C_{n,FB} = \max_{tr(K_X)\leq nP} \frac 1{2n} \log \frac{\mid K_{X+Z}}{\mid K_Z \mid} Cn,FB=tr(KX)≤nPmax2n1log∣KZ∣∣KX+Z - 反馈界
C n , F B ≤ C n + 1 2 C_{n,FB} \leq C_n +\frac12 Cn,FB≤Cn+21
C n , F B ≤ 2 C n C_{n,FB} \leq 2C_n Cn,FB≤2Cn
率失真理论
量化
设 X X X是表示的随机变量,记 X X X的表示为 X ^ ( X ) \hat X(X) X^(X)。如果使用 R R R比特表示 X X X,则函数 X ^ \hat X X^可以有 2 R 2^R 2R个取值。要寻找 X ^ \hat X X^的最优取值(称作再生点或码点)集合以及每个曲直所对应的原像区域。
定义
- 失真函数
distortion function
或者失真度量distortion measure
指从信源字母表与再生字母表的乘积空间到非负实数集上的映射 d : X × X ^ → R + d:\mathcal X \times \hat{\mathcal X} \rightarrow \mathcal R^+ d:X×X^→R+。失真 d ( x , x ^ ) d(x,\hat x) d(x,x^)是用来刻画使用 x ^ \hat x x^表示 x x x时的代价度量。 - 称失真度量是有界的,如果失真的最大值有限
d m a x = max x ∈ X , x ^ ∈ X ^ d ( x , x ^ ) ≤ ∞ d_{max} = \max_{x\in \mathcal X,\hat x \in \hat{\mathcal X}} d(x,\hat x) \leq \infty dmax=x∈X,x^∈X^maxd(x,x^)≤∞
在大多数情况下,再生字母表 X ^ \hat{\mathcal X} X^和信源字母表 X \mathcal X X是相同的 - 常用的失真函数的例子
- 汉明失真
d ( x , x ^ ) = { 0 x = x ^ 1 x ≠ x ^ d(x,\hat x)= \begin{cases} 0 &x = \hat x\\ 1 & x \neq \hat x \end{cases} d(x,x^)={01x=x^x=x^ - 平方误差失真
d ( x , x ^ ) = ( x − x ^ ) 2 d(x,\hat x) = (x-\hat x)^2 d(x,x^)=(x−x^)2 - 语音编码中的 I t a k u r a − S a i t o Itakura-Saito Itakura−Saito距离
- 汉明失真
-
x
n
x^n
xn与
x
^
n
\hat x^n
x^n序列间的失真定义为
d ( x n , x ^ n ) = 1 n ∑ i = 1 n d ( x i , x ^ i ) d(x^n,\hat x^n) = \frac 1n \sum_{i=1}^n d(x_i,\hat x_i) d(xn,x^n)=n1i=1∑nd(xi,x^i) - 一个
(
2
n
R
,
n
)
(2^{nR},n)
(2nR,n)率失真码
rate distortion code
包括- 一个编码函数 f n : X n → { 1 , 2 , ⋯ , 2 n R } f_n:\mathcal X^n \rightarrow \{1,2,\cdots,2^{nR}\} fn:Xn→{1,2,⋯,2nR}
- 一个译码(再生)函数 g n : { 1 , 2 , ⋯ , 2 n R } → X n g_n:\{1,2,\cdots,2^{nR}\} \rightarrow \mathcal X^n gn:{1,2,⋯,2nR}→Xn
- 关于这个
(
2
n
R
,
n
)
(2^{nR},n)
(2nR,n)码的失真定义为
D
=
E
d
(
X
n
,
g
n
(
f
n
(
X
n
)
)
)
D=Ed(X^n,g_n(f_n(X^n)))
D=Ed(Xn,gn(fn(Xn))),其中所取的期望是针对
X
X
X的概率分布而言的
D = ∑ x n p ( x n ) d ( x n , g n ( f n ( X n ) ) ) D = \sum_{x^n} p(x^n)d(x^n,g_n(f_n(X^n))) D=xn∑p(xn)d(xn,gn(fn(Xn))) - 将 n n n元组 g n ( 1 ) , g n ( 2 ) , ⋯ , g n ( 2 n R ) g_n(1),g_n(2),\cdots,g_n(2^{nR}) gn(1),gn(2),⋯,gn(2nR)记为 X ^ n ( 1 ) , X ^ n ( 2 ) , ⋯ , X ^ n ( 2 n R ) \hat X^n(1),\hat X^n(2),\cdots,\hat X^n(2^{nR}) X^n(1),X^n(2),⋯,X^n(2nR),它构成一个码簿
- f − 1 ( 1 ) , f − 1 ( 2 ) , ⋯ , f − 1 ( 2 n R ) f^{-1}(1),f^{-1}(2),\cdots,f^{-1}(2^{nR}) f−1(1),f−1(2),⋯,f−1(2nR)为相应的分配区域
- 称率失真对 ( R , D ) (R,D) (R,D)是可达的,若存在一个 ( 2 n R , n ) (2^{nR},n) (2nR,n)率失真码序列 ( f n , g n ) (f_n,g_n) (fn,gn),满足 lim n → ∞ E d ( X n , g n ( f n ( X n ) ) ) ≤ D \lim_{n\rightarrow \infty}Ed(X^n,g_n(f_n(X^n))) \leq D limn→∞Ed(Xn,gn(fn(Xn)))≤D
- 全体可达率失真对 ( R , D ) (R,D) (R,D)所构成的集合闭包称为信源的率失真区域。
- 对于给定的失真 D D D,满足 ( R , D ) (R,D) (R,D)包含于信源的率失真区域中的所有码率 R R R的下确界称为率失真函数 R ( D ) R(D) R(D)
- 对于给定的码率 R R R,满足 ( R , D ) (R,D) (R,D)包含于信源的率失真区域中的所有失真 D D D的下确界称为失真率函数 D ( R ) D(R) D(R)
- 设信源
X
X
X的失真度量为
d
(
x
,
x
^
)
d(x,\hat x)
d(x,x^),定义其信息率失真函数
R
(
I
)
(
D
)
R^{(I)}(D)
R(I)(D)为
R ( I ) ( D ) = max p ( x ^ ∣ x ) : ∑ ( x , x ^ ) p ( x ) p ( x ^ ∣ x ) d ( x , x ^ ) ≤ D I ( X ; X ^ ) R^{(I)}(D) = \max_{p(\hat x\mid x):\sum_{(x,\hat x)}p(x)p(\hat x \mid x)d(x,\hat x) \leq D} I(X;\hat X) R(I)(D)=p(x^∣x):∑(x,x^)p(x)p(x^∣x)d(x,x^)≤DmaxI(X;X^) - 对于独立同分布的信源
X
X
X,若公共分布为
p
(
x
)
p(x)
p(x)且失真函数
d
(
x
,
x
^
)
d(x,\hat x)
d(x,x^)有界,那么其率失真函数与对应的信息率失真函数相等。于是
R ( D ) = R ( I ) ( D ) = max p ( x ^ ∣ x ) : ∑ ( x , x ^ ) p ( x ) p ( x ^ ∣ x ) d ( x , x ^ ) ≤ D I ( X ; X ^ ) R(D) = R^{(I)}(D) = \max_{p(\hat x\mid x):\sum_{(x,\hat x)}p(x)p(\hat x \mid x)d(x,\hat x) \leq D} I(X;\hat X) R(D)=R(I)(D)=p(x^∣x):∑(x,x^)p(x)p(x^∣x)d(x,x^)≤DmaxI(X;X^)
为在失真 D D D下的最小可达码率
伯努利信源
在汉明失真度量意义下,对于伯努利信源,有
R
(
D
)
=
H
(
p
)
−
H
(
D
)
R(D) = H(p) - H(D)
R(D)=H(p)−H(D)
高斯信源
在失真度量是平方误差误差的意义下,对于高斯信源,有
R
(
D
)
=
1
2
log
σ
2
D
R(D) = \frac 12 \log \frac{\sigma^2}{D}
R(D)=21logDσ2
率失真定理/香农第三定理
如果 R > R ( D ) R>R(D) R>R(D),则存在码字数目为 ∣ X ^ n ( ⋅ ) ∣ ≤ 2 n R \mid \hat X^n(\cdot)\mid \leq 2^{nR} ∣X^n(⋅)∣≤2nR的码序列 X ^ n ( X n ) \hat X^n(X^n) X^n(Xn),使 E d ( X n , X ^ n ( X n ) ) → D Ed(X^n,\hat X^n(X^n)) \rightarrow D Ed(Xn,X^n(Xn))→D。若 R < R ( D ) R< R(D) R<R(D),则这样的码序列不存在。
信源信道分离性
率失真为 R ( D ) R(D) R(D)的信源能够在信道容量为 C C C的信道中传输并且失真为 D D D,当且仅当 R ( D ) < C R(D)<C R(D)<C。
信息论与统计学
TODO
最大熵
More need TODO
最大熵分布定理
设
f
f
f为概率密度函数且满足如下约束条件
∫
S
f
(
x
)
r
i
(
x
)
=
α
i
(
1
≤
i
≤
m
)
\int_S f(x)r_i(x) =\alpha_i(1 \leq i \leq m)
∫Sf(x)ri(x)=αi(1≤i≤m)
令
f
∗
(
x
)
=
f
λ
(
x
)
=
e
λ
0
+
∑
i
=
1
m
λ
i
r
i
(
x
)
,
x
∈
S
f^*(x) = f_\lambda(x) = e^{\lambda_0+\sum_{i=1}^m \lambda_ir_i(x)},x \in S
f∗(x)=fλ(x)=eλ0+∑i=1mλiri(x),x∈S,再选择
λ
0
,
λ
1
,
⋯
,
λ
m
\lambda_0,\lambda_1,\cdots,\lambda_m
λ0,λ1,⋯,λm使得
f
∗
f^*
f∗满足上式,那么,在所有这些满足约束条件的密度函数
f
f
f中,
f
∗
f^*
f∗是唯一使得
h
(
f
)
h(f)
h(f)达到最大值的分布函数。
最小鉴别信息定理
某随机变量
X
X
X,概率分布
q
(
x
)
q(x)
q(x)未知,已知其先验概率密度
p
(
x
)
p(x)
p(x)及若干函数的期望
∫
S
q
(
x
)
f
m
(
x
)
d
x
=
C
m
,
m
=
1
,
2
,
⋯
,
M
\int_S q(x) f_m(x) dx = C_m,m=1,2,\cdots,M
∫Sq(x)fm(x)dx=Cm,m=1,2,⋯,M
求在上述条件下对
q
(
x
)
q(x)
q(x)的最佳估计,等价于取先验分布与目标分布之间的鉴别信息作为目标函数
D
(
p
∣
∣
q
)
=
∫
s
q
(
x
)
log
q
(
x
)
p
(
x
)
d
x
D(p \mid\mid q) = \int_s q(x) \log \frac {q(x)}{p(x)}dx
D(p∣∣q)=∫sq(x)logp(x)q(x)dx
在上述约束条件下的解。