信息熵总结

熵、相对熵与互信息

信息是对不确定性的消除。熵是随机变量不确定度的度量。设 X X X是一个离散型随机变量,其字母的取值空间为 X \mathcal{X} X,概率密度函数 p ( x ) = P r ( X = x ) , x ∈ X p(x)=Pr(X=x),x \in \mathcal{X} p(x)=Pr(X=x),xX
一个离散型随机变量 X X X的熵 H ( X ) H(X) H(X)定义为
H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ 2 p ( x ) H(X) = - \sum_{x\in \mathcal{X}} p(x) \log_2 {p(x)} H(X)=xXp(x)log2p(x)
也记作 H ( p ) H(p) H(p)。对数的底为2,熵的单位用比特表示。
如果使用底为 b b b的对数,则相应的熵记为 H b ( x ) H_b(x) Hb(x)。当对数底为 e e e时,熵的单位用奈特nat表示。
E p g ( x ) = ∑ x ∈ χ g ( x ) p ( x ) E_pg(x) = \sum_{x\in \chi} g(x)p(x) Epg(x)=xχg(x)p(x)
X X X的熵又可解释为随机变量 log ⁡ 1 p ( X ) \log \frac{1}{p(X)} logp(X)1的数学期望,
H ( X ) = E p log ⁡ 1 p ( X ) H(X)=E_p \log{\frac 1 {p(X)}} H(X)=Eplogp(X)1

  • 非负性: H ( X ) ≥ 0 H(X) \geq 0 H(X)0
  • 换底公式: H b ( X ) = ( log ⁡ b a ) H a ( X ) H_b(X)=(\log_b a)H_a(X) Hb(X)=(logba)Ha(X)
  • 可加性/熵的链式法则: H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H(X_1,X_2,\cdots,X_n)=\sum_{i=1}^n H(X_i \mid X_{i-1},\cdots,X_1) H(X1,X2,,Xn)=i=1nH(XiXi1,,X1)
  • 最大离散熵定理
    H ( X ) ≤ log ⁡ ∣ X ∣ H(X) \leq \log \mid \mathcal X\mid H(X)logX,其中 log ⁡ ∣ X ∣ \log \mid \mathcal X \mid logX表示字母表或定义域集合 X \mathcal X X中元素的个数,当且仅当X服从 X \mathcal X X上的均匀分布,等号成立。
  • 熵的独立界
    X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn服从 p ( x 1 , x 2 , ⋯   , x n ) p(x_1,x_2,\cdots,x_n) p(x1,x2,,xn),则
    H ( X 1 , X 2 , ⋯   , X n ) ≤ ∑ i = 1 n H ( X i ) H(X_1,X_2,\cdots,X_n) \leq \sum_{i=1}^n H(X_i) H(X1,X2,,Xn)i=1nH(Xi)
    当且仅当 X i X_i Xi相互独立,等号成立

联合熵

对于服从联合分布 p ( x , y ) p(x,y) p(x,y)的一对离散随机变量 ( X , Y ) (X,Y) (X,Y),其联合熵 H ( X , Y ) H(X,Y) H(X,Y) joint entropy
H ( X , Y ) = − ∑ x ∈ χ ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) = − E log ⁡ p ( X , Y ) H(X,Y) = - \sum_{x\in \chi} \sum_{y\in Y} p(x,y) \log p(x,y)=-E\log p(X,Y) H(X,Y)=xχyYp(x,y)logp(x,y)=Elogp(X,Y)

条件熵

( X , Y ) ∼ p ( x , y ) (X,Y) \sim p(x,y) (X,Y)p(x,y),条件熵conditional entropy H ( Y ∣ X ) H(Y \mid X) H(YX)定义为
H ( Y ∣ X ) = ∑ x ∈ χ p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ χ p ( x ) ∑ y ∈ Y p ( y ∣ x ) log ⁡ p ( y ∣ x ) = − ∑ x ∈ χ ∑ y ∈ Y p ( x , y ) log ⁡ p ( y ∣ x ) = − E log ⁡ p ( Y ∣ X ) H(Y \mid X)= \sum_{x\in \chi}p(x) H(Y\mid X=x) \\= -\sum_{x\in \chi}p(x) \sum_{y\in Y}p(y\mid x)\log p(y \mid x)\\ = - \sum_{x \in \chi} \sum_{y\in Y}p(x,y) \log p(y \mid x) = -E \log p(Y \mid X) H(YX)=xχp(x)H(YX=x)=xχp(x)yYp(yx)logp(yx)=xχyYp(x,y)logp(yx)=Elogp(YX)

  • 条件作用使熵减小,信息不会有负面影响: H ( X ∣ Y ) ≤ H ( X ) H(X \mid Y) \leq H(X) H(XY)H(X)
  • 可加性/链式法则:
    H ( X , Y ) = H ( X ) + H ( Y ∣ X )    ⟺    log ⁡ p ( X , Y ) = log ⁡ p ( X ) + log ⁡ p ( y ∣ x ) H(X,Y) = H(X)+ H(Y \mid X) \iff \log p(X,Y) = \log p(X) + \log p(y \mid x) H(X,Y)=H(X)+H(YX)logp(X,Y)=logp(X)+logp(yx)
    H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y \mid Z) = H(X \mid Z) + H(Y \mid X,Z) H(X,YZ)=H(XZ)+H(YX,Z)

互信息

互信息

它是一个随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)
数学展开表达式
I ( X ; Y ) = ∑ x ∈ χ ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = E p ( x , y ) log ⁡ p ( X , Y ) p ( X ) p ( Y ) I(X;Y)=\sum_{x\in \chi} \sum_{y\in \mathcal{Y}}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\=E_{p(x,y)}\log\frac{p(X,Y)}{p(X)p(Y)} I(X;Y)=xχyYp(x,y)logp(x)p(y)p(x,y)=Ep(x,y)logp(X)p(Y)p(X,Y)

  • I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y)=H(Y)-H(Y\mid X) I(X;Y)=H(Y)H(YX)
  • I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y)=H(X)+H(Y)-H(X,Y) I(X;Y)=H(X)+H(Y)H(X,Y)
  • I ( X ; Y ) = I ( Y ; X ) I(X;Y)=I(Y;X) I(X;Y)=I(Y;X)
  • X X X Y Y Y独立, I ( X ; Y ) = 0 I(X;Y)=0 I(X;Y)=0
  • X X X Y Y Y一一映射,则 I ( X ; Y ) = H ( X ) I(X;Y)=H(X) I(X;Y)=H(X)
  • 非负性: I ( X ; Y ) ≥ 0 I(X;Y) \geq 0 I(X;Y)0,了解一个随机变量对于了解另一个随机变量总有一些帮助
  • 极值性: I ( X ; Y ) ≤ min ⁡ { H ( X ) , H ( Y ) } I(X;Y) \leq \min\{H(X),H(Y)\} I(X;Y)min{H(X),H(Y)},两个随机变量的互信息不可能比自身还大
  • 可加性/链式法则: I ( X 1 , X 2 , ⋯   , X n ; Y ) = ∑ i = 1 n I ( X i ; Y ∣ X i − 1 , ⋯   , X 1 ) I(X_1,X_2,\cdots,X_n;Y)=\sum_{i=1}^n I(X_i;Y \mid X_{i-1},\cdots,X_1) I(X1,X2,,Xn;Y)=i=1nI(Xi;YXi1,,X1)
  • 随机变量与其自身的互信息为该随机变量的熵,所以熵有时候称为自信息self-information H ( X ; X ) = H ( X ) H(X;X)=H(X) H(X;X)=H(X)

条件互信息

随机变量 X X X Y Y Y在给定随机变量 Z Z Z时的条件互信息conditional mutual information
I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = E p ( x , y , z ) log ⁡ p ( X , Y ∣ Z ) p ( X ∣ Z ) p ( Y ∣ Z ) I(X;Y \mid Z) = H(X \mid Z) - H(X \mid Y,Z) =E_{p(x,y,z)} \log \frac{p(X,Y \mid Z)}{p(X \mid Z)p(Y \mid Z)} I(X;YZ)=H(XZ)H(XY,Z)=Ep(x,y,z)logp(XZ)p(YZ)p(X,YZ)

相对熵

相对熵

相对熵时两个随机分布之间距离的度量,又称鉴别信息。相对熵 D ( p ∣ ∣ q ) D(p \mid \mid q) D(p∣∣q)度量当真实分布为 p p p而假定分布为 p p p时的无效性。
D ( p ∣ ∣ q ) = ∑ x ∈ χ p ( x ) log ⁡ p ( x ) q ( x ) = E p log ⁡ p ( X ) q ( X ) D(p \mid\mid q) = \sum_{x\in \chi}p(x) \log\frac{p(x)}{q(x)}= E_p \log \frac{p(X)}{q(X)} D(p∣∣q)=xχp(x)logq(x)p(x)=Eplogq(X)p(X)

  • 非负性/信息不等式: D ( p ∣ ∣ q ) ≥ 0 D(p \mid\mid q) \geq 0 D(p∣∣q)0
  • 不是严格的距离函数:不满足对称性和三角不等式
  • H ( X ) = log ⁡ ∣ X ∣ − D ( p ∣ ∣ u ) H(X) = \log \mid \mathcal X \mid - D(p\mid\mid u) H(X)=logXD(p∣∣u)
  • I ( X ; Y ) = D ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) I(X;Y) = D(p(x,y)\mid\mid p(x)p(y)) I(X;Y)=D(p(x,y)∣∣p(x)p(y))

条件相对熵

条件相对熵conditional relative entropy D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) D(p(y\mid x) \mid\mid q(y\mid x)) D(p(yx)∣∣q(yx))定义为条件概率密度函数 p ( y ∣ x ) p(y\mid x) p(yx) q ( y ∣ x ) q(y\mid x) q(yx)之间的平均相对熵,其中取平均时关于概率密度函数 p ( x ) p(x) p(x)而言的
D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) = ∑ x p ( x ) ∑ y p ( y ∣ x ) log ⁡ p ( y ∣ x ) q ( y ∣ x ) = E p ( x , y ) log ⁡ p ( Y ∣ X ) q ( Y ∣ X ) D(p(y\mid x) \mid\mid q(y\mid x)) = \sum_x p(x) \sum_y p(y\mid x) \log \frac{p(y\mid x)}{q(y\mid x)}=E_{p(x,y)}\log \frac{p(Y\mid X)}{q(Y\mid X)} D(p(yx)∣∣q(yx))=xp(x)yp(yx)logq(yx)p(yx)=Ep(x,y)logq(YX)p(YX)

  • D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) ≥ 0 D(p(y\mid x)\mid\mid q(y\mid x)) \geq 0 D(p(yx)∣∣q(yx))0,当且仅当对任意y以及满足 p ( x ) > 0 p(x)>0 p(x)>0 x x x,有 p ( y ∣ x ) = q ( y ∣ x ) p(y\mid x) = q(y\mid x) p(yx)=q(yx),等号成立
  • I ( X ; Y ∣ Z ) ≥ 0 I(X;Y\mid Z) \geq 0 I(X;YZ)0,当且仅当对给定随机变量 Z Z Z, X X X Y Y Y是条件独立的,等号成立
  • 可加性/相对熵的链式法则
    D ( p ( x , y ) ∣ ∣ q ( x , y ) ) = D ( p ( x ) ∣ ∣ q ( x ) ) + D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) D(p(x,y) \mid\mid q(x,y))=D(p(x)\mid\mid q(x)) + D(p(y\mid x)\mid\mid q(y\mid x)) D(p(x,y)∣∣q(x,y))=D(p(x)∣∣q(x))+D(p(yx)∣∣q(yx))

凸函数

如果函数总是位于任何一条弦的下面,则该函数是下凸的;如果函数总是位于任何一条弦的上面,则该函数是上凸。

Jensen不等式

若给定下凸函数 f f f和一个随机变量 X X X,则
E f ( X ) ≥ f ( E X ) Ef(X) \geq f(EX) Ef(X)f(EX)
f f f是严格下凸的,等号成立 X = E X X=EX X=EX

对数和不等式及其应用

对数和不等式

对于非负数 a 1 , a 2 , ⋯   , a n a_1,a_2,\cdots,a_n a1,a2,,an b 1 , b 2 , ⋯   , b n b_1,b_2,\cdots,b_n b1,b2,,bn,
∑ i = 1 n a i log ⁡ a i b i ≥ ( ∑ i = 1 n a i ) log ⁡ ∑ i = 1 n a i ∑ i = 1 n b i \sum_{i=1}^n a_i \log \frac{a_i}{b_i} \geq (\sum_{i=1}^n a_i) \log \frac{\sum_{i=1}^n a_i}{\sum_{i=1}^n b_i} i=1nailogbiai(i=1nai)logi=1nbii=1nai
当且仅当 a i b i = C \frac{a_i}{b_i}=C biai=C,等号成立

相对熵的凸性

D ( p ∣ ∣ q ) D(p\mid \mid q) D(p∣∣q)关于对 ( p , q ) (p,q) (p,q)是下凸的,即如果 ( p 1 , q 1 ) (p_1,q_1) (p1,q1) ( p 2 , q 2 ) (p_2,q_2) (p2,q2)为两对概率密度函数,则对所有的 0 ≤ λ 1 0 \leq \lambda 1 0λ1,有
D ( λ p 1 + ( 1 − λ ) p 2 ∣ ∣ λ q 1 + ( 1 − λ ) q 2 ) ≤ λ D ( p 1 ∣ ∣ q 1 ) + ( 1 − λ ) D ( p 2 ∣ ∣ q 2 ) D(\lambda p_1 +(1- \lambda)p_2 \mid\mid \lambda q_1+(1-\lambda)q_2) \leq \lambda D(p_1\mid\mid q_1) + (1-\lambda) D(p_2 \mid\mid q_2) D(λp1+(1λ)p2∣∣λq1+(1λ)q2)λD(p1∣∣q1)+(1λ)D(p2∣∣q2)

熵的凸性

H ( p ) H(p) H(p)是关于 p p p的上凸函数

互信息的凹凸性

( X , Y ) ∼ p ( x , y ) = p ( x ) p ( y ∣ x ) (X,Y) \sim p(x,y)=p(x)p(y\mid x) (X,Y)p(x,y)=p(x)p(yx)。如果固定 p ( y ∣ x ) p(y\mid x) p(yx),则互信息 I ( X ; Y ) I(X;Y) I(X;Y)是关于 p ( x ) p(x) p(x)的上凸函数;而如果固定 p ( x ) p(x) p(x),则互信息 I ( X ; Y ) I(X;Y) I(X;Y)是关于 p ( y ∣ x ) p(y\mid x) p(yx)的下凸函数。

数据处理不等式

数据处理不等式说明,不存在对数据的优良操作能使从数据中所获得的推理得到改善。

马尔可夫链

如果 Z Z Z的条件分布仅依赖于Y的分布,而与X是条件独立的,则称随机变量 X , Y , Z X,Y,Z X,Y,Z依序构成马尔可夫链,记为 X → Y → Z X \rightarrow Y \rightarrow Z XYZ。可构成马尔可夫链的数学定义是
p ( x , y , z ) = p ( x ) p ( y ∣ x ) p ( z ∣ y ) p(x,y,z) = p(x) p(y\mid x) p(z\mid y) p(x,y,z)=p(x)p(yx)p(zy)

数据处理不等式

X → Y → Z X \rightarrow Y \rightarrow Z XYZ,则有 I ( X ; Y ) ≥ I ( X ; Z ) I(X;Y) \geq I(X;Z) I(X;Y)I(X;Z)

  • 如果 Z = g ( Y ) Z=g(Y) Z=g(Y),则 I ( X ; Y ) ≥ I ( X ; g ( Y ) ) I(X;Y) \geq I(X;g(Y)) I(X;Y)I(X;g(Y)),即数据Y的函数不会增加X的信息量
  • 如果 X → Y → Z X \rightarrow Y \rightarrow Z XYZ,则 I ( X ; Y ∣ Z ) ≤ I ( X ; Y ) I(X;Y \mid Z) \le I(X;Y) I(X;YZ)I(X;Y)

充分统计量

假定有一族以参数 θ \theta θ指示的概率密度函数 { f θ ( x ) } \{f_\theta(x)\} {fθ(x)},设 X X X是从其中一个分布抽取的样本。设 T ( X ) T(X) T(X)为任意一个统计量,如样本均值或样本方差,那么 θ → X → T ( X ) \theta \rightarrow X \rightarrow T(X) θXT(X),且由数据处理不等式,对于 θ \theta θ的任何分布,有
I ( θ ; T ( X ) ) ≤ I ( θ ; X ) I(\theta;T(X)) \leq I(\theta;X) I(θ;T(X))I(θ;X)
若等号成立,表明无信息损失。
如果 T ( X ) T(X) T(X)包含了 X X X所含的关于 θ \theta θ的全部信息,则称该统计量 T ( X ) T(X) T(X)关于 θ \theta θ是充分的。

  • 如果对 θ \theta θ的任何分布,在给定 T ( X ) T(X) T(X)的情况下, X X X独立于 θ \theta θ,即 ( θ → T ( X ) → X ) (\theta \rightarrow T(X) \rightarrow X) (θT(X)X)构成马尔可夫链,则称函数 T ( X ) T(X) T(X)是关于分布族 { f θ ( x ) } \{f_\theta (x)\} {fθ(x)}充分统计量(sufficient statistic),即 I ( θ ; X ) = I ( θ ; T ( X ) ) I(\theta;X)=I(\theta;T(X)) I(θ;X)=I(θ;T(X))
  • 如果一个充分统计量 T ( X ) T(X) T(X)是其他所有充分统计量 U U U的函数,则称 T ( X ) T(X) T(X)是关于 { f θ ( x ) } \{f_\theta (x)\} {fθ(x)}最小充分统计量(minimal sufficient statistic),即 θ → T ( X ) → U ( X ) → X \theta \rightarrow T(X) \rightarrow U(X) \rightarrow X θT(X)U(X)X

费诺不等式

假定知道随机变量 Y Y Y,想进一步推测与之相关的随机变量 X X X的值。费诺不等式将推测随机变量X的误差概率与它的条件熵 H ( X ∣ Y ) H(X \mid Y) H(XY)联系到一起。
对任何满足 X → Y → X ^ X \rightarrow Y \rightarrow \hat{X} XYX^的估计量 X ^ \hat X X^,设 P e = Pr ⁡ { X ≠ X ^ } P_e=\Pr \{X \neq \hat X\} Pe=Pr{X=X^},有
H ( P e ) + P e log ⁡ ∣ X ∣ ≥ H ( X ∣ X ^ ) ≥ H ( X ∣ Y ) H(P_e) + P_e \log \mid \mathcal X \mid \geq H(X \mid \hat X) \geq H(X \mid Y) H(Pe)+PelogX∣≥H(XX^)H(XY)

  • 对任意两个随机变量 X X X Y Y Y,设 p = Pr ⁡ ( X ≠ Y ) p=\Pr(X \neq Y) p=Pr(X=Y), H ( p ) + p log ⁡ ∣ X ∣ ≥ H ( X ∣ Y ) H(p)+p\log \mid \mathcal X \mid \geq H(X \mid Y) H(p)+plogX∣≥H(XY)
  • P e = Pr ⁡ ( X ≠ X ^ ) , X ^ : Y → X P_e = \Pr (X \neq \hat X),\hat X:\mathcal Y \rightarrow \mathcal X Pe=Pr(X=X^),X^:YX,则 H ( P e ) + P e log ⁡ ( ∣ X ∣ − 1 ) ≥ H ( X ∣ Y ) H(P_e)+P_e \log(\mid \mathcal X \mid -1) \geq H(X\mid Y) H(Pe)+Pelog(X1)H(XY)
  • 如果 X X X X ′ X' X独立同分布,具有熵 H ( X ) H(X) H(X),则 Pr ⁡ ( X = X ′ ) ≥ 2 − H ( X ) \Pr(X = X') \geq 2^{-H(X)} Pr(X=X)2H(X),仅当 X X X服从均匀分布,等号成立

渐进均分性

渐进均分性定理

X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn i . i . d ∼ p ( x ) i.i.d \sim p(x) i.i.dp(x),则
− 1 n log ⁡ p ( X 1 , X 2 , ⋯   , X n ) → H ( X ) (AEP) -\frac 1 n \log p(X_1,X_2,\cdots,X_n) \rightarrow H(X) \tag{AEP} n1logp(X1,X2,,Xn)H(X)(AEP)
关于 p ( X ) p(X) p(X)的典型集 A ε ( n ) A_{\varepsilon}^{(n)} Aε(n)是序列 ( x 1 , x 2 , ⋯   , x n ) ∈ X n (x_1,x_2,\cdots,x_n) \in \mathcal X^n (x1,x2,,xn)Xn的集合,且满足性质
2 − n ( H ( X ) + ε ) ≤ p ( x 1 , x 2 , ⋯   , x n ) ≤ 2 − n ( H ( X ) − ε ) 2^{-n(H(X)+\varepsilon)} \leq p(x_1,x_2,\cdots,x_n) \leq 2^{-n(H(X)-\varepsilon)} 2n(H(X)+ε)p(x1,x2,,xn)2n(H(X)ε)
可以证明典型集 A ε ( n ) A^{(n)}_\varepsilon Aε(n)有如下性质:

  • 如果 ( x 1 , x 2 , ⋯   , x n ) ∈ A ε ( n ) (x_1,x_2,\cdots,x_n) \in A_\varepsilon^{(n)} (x1,x2,,xn)Aε(n),则 H ( X ) − ε ≤ − 1 n log ⁡ p ( x 1 , x 2 , ⋯   , x n ) ≤ H ( X ) + ε H(X)-\varepsilon \leq -\frac 1n \log p(x_1,x_2,\cdots,x_n) \leq H(X) + \varepsilon H(X)εn1logp(x1,x2,,xn)H(X)+ε
  • n n n充分大时, Pr ⁡ { A ε ( n ) } > 1 − ε \Pr \{A_\varepsilon ^{(n)}\} > 1- \varepsilon Pr{Aε(n)}>1ε
  • ∣ A ε ( n ) ∣ ≤ 2 n ( H ( X ) + ε ) \mid A_\varepsilon^{(n)} \mid \leq 2^{n(H(X)+\varepsilon)} Aε(n)∣≤2n(H(X)+ε)
  • n n n充分大时, ∣ A ε ( n ) ∣ ≥ ( 1 − ε ) 2 n ( H ( X ) − ε ) \mid A_\varepsilon^{(n)}\mid \geq (1-\varepsilon)2^{n(H(X)-\varepsilon)} Aε(n)∣≥(1ε)2n(H(X)ε)

由此可知,典型集的概率近似为1,典型集中的所有元素几乎是等可能的,且典型集的元素个数近似等于 2 n H 2^{nH} 2nH

AEP的推论:数据压缩

X n X^n Xn为服从 p ( x ) p(x) p(x) i . i . d i.i.d i.i.d序列, ε > 0 \varepsilon>0 ε>0,则存在一个编码将长度为n的序列 x n x^n xn映射为比特串,使得映射是 1 − 1 1-1 11的,且对于充分大的 n n n,有
E [ 1 n l ( X n ) ] ≤ H ( X ) + ε (香农第一定理) E[\frac 1 n l(X^n)] \leq H(X) + \varepsilon \tag{香农第一定理} E[n1l(Xn)]H(X)+ε(香农第一定理)
因而在平均意义上,用 n H ( X ) nH(X) nH(X)比特科表示序列 X n X^n Xn。该定理又称信源无失真定长编码定理

高概率集与典型集

X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn i . i . d ∼ p ( x ) i.i.d \sim p(x) i.i.dp(x)。对 δ < 1 2 \delta < \frac 12 δ<21,设 B δ ( n ) ⊂ X n B_\delta^{(n) } \subset \mathcal X^n Bδ(n)Xn为使 Pr ⁡ { B δ ( n ) } ≥ 1 − δ \Pr \{B_\delta^{(n) }\} \geq 1 - \delta Pr{Bδ(n)}1δ成立的最小集合,则
∣ B δ ( n ) ∣ = 2 n H \mid B_\delta^{(n)} \mid = 2^{nH} Bδ(n)∣=2nH

随机过程的熵率

TODO

数据压缩

编码的概念

信源编码

关于随机变量 X X X信源编码 C C C是从 X X X的取值空间 X \mathcal X X D ∗ \mathcal D ^* D的一个映射,其中 D ∗ \mathcal D ^* D表示 D D D元字母表 D \mathcal D D上有限长度的字符串所构成的集合。用 C ( x ) C(x) C(x)表示 x x x的码字并用 l ( x ) l(x) l(x)表示 C ( x ) C(x) C(x)的长度。

期望长度

设随机变量 X X X的概率密度函数为 p ( x ) p(x) p(x), l ( x ) l(x) l(x)为对应于 x x x的码字长度,定义信源编码 C ( x ) C(x) C(x)期望长度 L ( C ) L(C) L(C)
L ( C ) = ∑ x ∈ X p ( x ) l ( x ) L(C)=\sum_{x \in \mathcal X} p(x)l(x) L(C)=xXp(x)l(x)

非奇异编码

如果编码将 X X X的取值空间中的每个元素映射称 D ∗ \mathcal D ^* D中的不同字符串,即
x ≠ x ′ ⇒ C ( x ) ≠ C ( x ′ ) x \neq x' \Rightarrow C(x) \neq C(x') x=xC(x)=C(x)
则称这个编码是非奇异的

扩展编码

编码 C C C的扩展 C ∗ C^* C是从 X \mathcal X X上的有限长字符串到 D \mathcal D D上的有限长字符串的映射,定义为
C ( x 1 x 2 ⋯ x n ) = C ( x 1 ) C ( x 2 ) ⋯ C ( x n ) C(x_1 x_2 \cdots x_n) = C(x_1)C(x_2)\cdots C(x_n) C(x1x2xn)=C(x1)C(x2)C(xn)
其中 C ( x 1 ) C ( x 2 ) ⋯ C ( x n ) C(x_1)C(x_2)\cdots C(x_n) C(x1)C(x2)C(xn)表示相应码字的串联。

唯一可译编码

如果一个编码的扩展编码是非奇异的,则称该编码是唯一可译的。

前缀码

若码中无任何码字是其他码字的前缀,则称该编码为前缀码或即时码。

Kraft不等式

  • 对于 D D D元字母表上的即时码(前缀码),码字长度 l 1 , l 2 , ⋯   , l m l_1,l_2,\cdots,l_m l1,l2,,lm必须满足不等式

∑ i D − l i ≤ 1 (Kraft不等式) \sum_{i} D^{-l_i} \leq 1 \tag{Kraft不等式} iDli1(Kraft不等式)

反之,若给定满足以上不等式的一组码字长度,则存在一个相应的即时码,其码字长度就是给定的长度。

  • 对任何构成前缀码的可数无限码字集,码字长度也满足推广的 K r a f t Kraft Kraft不等式

∑ i = 1 ∞ D − l i ≤ 1 (推广的Kraft不等式) \sum_{i=1}^\infty D^{-l_i} \leq 1 \tag{推广的Kraft不等式} i=1Dli1(推广的Kraft不等式)

反之,若给定满足推广的Kraft不等式的 l 1 , l 2 , ⋯   , l_1,l_2,\cdots, l1,l2,,则可构造出具有相应码字长度的前缀码。

最优码

随机变量 X X X的任一 D D D元即时码的期望长度必定大于或等于熵 H D ( X ) H_D(X) HD(X),即
L ≥ H D ( X ) L \geq H_D(X) LHD(X)
当且仅当 D − l i = p i D^{-l_i}=p_i Dli=pi,等号成立。

对于某个 n n n,如果概率分布的每一个概率值均等于 D − n D^{-n} Dn,则称这个概率分布是 D D D进制的D-adic。因此,当且仅当 X X X的分布式 D D D进制的,上述等号成立。

最优码长的界

  • l 1 ∗ , l 2 ∗ , ⋯   , l m ∗ l_1^*,l_2^*,\cdots,l_m^* l1,l2,,lm是关于信源分布 p \pmb p p和一个 D D D元字母表的一组最优码长, L ∗ L^* L为最优码的相应期望长度 ( L ∗ = ∑ p i l i ∗ ) (L^*=\sum p_il_i^*) (L=pili),则
    H D ( X ) ≤ L ∗ ≤ H D ( X ) + 1 H_D(X) \leq L^* \leq H_D(X)+1 HD(X)LHD(X)+1

  • 每字符最小期望码字长满足
    H ( X 1 , X 2 , ⋯   , X n ) n ≤ L n ∗ < H ( X 1 , X 2 , ⋯   , X n ) n + 1 n (分组前缀码) \frac {H(X_1,X_2,\cdots,X_n)}{n} \leq L_n^* <\frac{H(X_1,X_2,\cdots,X_n)}{n} +\frac 1n \tag{分组前缀码} nH(X1,X2,,Xn)Ln<nH(X1,X2,,Xn)+n1(分组前缀码)
    进一步,若 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn是平稳随机过程则
    L n ∗ → H ( X ) L_n^* \rightarrow H(\mathcal X) LnH(X)
    其中 H ( X ) H(\mathcal X) H(X)为随机过程的熵率。

  • 偏码wrong code)码字长度分配 l ( x ) = ⌈ log ⁡ 1 q ( x ) ⌉ l(x) = \lceil \log \frac 1{q(x)} \rceil l(x)=logq(x)1(香农码)关于 p ( x ) p(x) p(x)的期望码长满足
    H ( p ) + D ( p ∣ ∣ q ) ≤ E p l ( X ) < H ( p ) + D ( p ∣ ∣ q ) + 1 H(p) + D(p \mid\mid q) \leq E_pl(X) < H(p) + D(p\mid\mid q) +1 H(p)+D(p∣∣q)Epl(X)<H(p)+D(p∣∣q)+1
    于是,若真实分布为 p ( x ) p(x) p(x),而编码使用的是非真实分布 q ( x ) q(x) q(x),则会导致期望描述长度增加 D ( p ∣ ∣ q ) D(p \mid \mid q) D(p∣∣q)

唯一可译码的Kraft不等式

任意唯一可以的D元码的码字长度必然满足Kraft不等式
∑ D − l i ≤ 1 (McMillan) \sum D^{-l_i} \leq 1 \tag{McMillan} Dli1(McMillan)
反之,若给定满足上述不等式的一组码字长度,则可以构造出具有同样码字长度的唯一可译码。

  • 推论:无限信源字母表 X \mathcal X X的唯一可译码亦满足Kraft不等式。

这个定理说明:从码字长度集的角度考虑,唯一可译码类不能提供比前缀码类更优的选择。对唯一可译码与即时码而言,码字长度集是一样的。因而,当将允许的编码扩展到唯一可译码类的范畴,关于最优码字长度的界也是成立的。

霍夫曼编码

霍夫曼编码是最优前缀编码

信道容量

离散信道discret channel是由输入字母表 X \mathcal X X,输出字母表 Y \mathcal Y Y和概率转移矩阵 p ( y ∣ x ) p(y \mid x) p(yx)构成的系统,其中 p ( y ∣ x ) p(y\mid x) p(yx)表示发送字符 x x x的条件下收到字符 y y y的概率。如果输出的概率分布仅依赖于他所对应的输入,而与先前信道的输入或者输出条件独立,就称这个信道是无记忆的memoryless
离散无记忆信道的"信息"信道容量channnel capacity定义为
C = max ⁡ p ( x ) I ( X ; Y ) C = \max_{p(x)} I(X;Y) C=p(x)maxI(X;Y)
这里的最大值取自所有可能的输入分布 p ( x ) p(x) p(x)

信道的例子

  • 无噪声二元信道
  • 无重叠输出的有噪声信道
  • 有噪声的打字机信道
  • 二元对称信道
  • 二元擦除信道

对称信道

如果信道转移矩阵 p ( y ∣ x ) p(y\mid x) p(yx)的任何两行互相置换;任何两列也互相置换,那么称该信道是对称的。如果转移矩阵的每一行 p ( ⋅ ∣ x ) p(\cdot \mid x) p(x)都是其他每行的置换,而所有列的元素和 ∑ x p ( y ∣ x ) \sum_x p(y\mid x) xp(yx)相等,则称这个信道是弱对称的。
对于弱对称,包括对称信道,
C = log ⁡ ∣ Y ∣ − H ( 转移矩阵的行 ) C = \log \mid \mathcal Y \mid - H(转移矩阵的行) C=logYH(转移矩阵的行)
当输入字母表上的分布为均匀时达到该容量。

信道容量的性质

  • C ≥ 0 C \geq 0 C0
  • C = max ⁡ I ( X ; Y ) ≤ max ⁡ H ( X ) ≤ log ⁡ ∣ X ∣ C = \max I(X;Y) \leq \max H(X) \leq \log \mid \mathcal X\mid C=maxI(X;Y)maxH(X)logX
  • C ≤ log ⁡ ∣ Y ∣ C \leq \log \mid \mathcal Y \mid ClogY
  • C = I ( X ; Y ) C=I(X;Y) C=I(X;Y)是关于 p ( x ) p(x) p(x)的连续函数
  • C = I ( X ; Y ) C=I(X;Y) C=I(X;Y)是关于 p ( x ) p(x) p(x)的上凸函数

一些定义

  • ( X , p ( y ∣ x ) , Y ) (\mathcal X,p(y\mid x),\mathcal Y) (X,p(yx),Y)表示的离散信道由两个有限集 X \mathcal X X Y \mathcal Y Y以及一簇概率密度函数 p ( y ∣ x ) ( x ∈ X ) p(y \mid x)(x\in \mathcal X) p(yx)(xX)构成,其中对任意 x x x y y y,有 p ( y ∣ x ) ≥ 0 p(y\mid x) \geq 0 p(yx)0,以及对任意的 x x x,有 ∑ x p ( y ∣ x ) = 1 \sum_x p(y\mid x)=1 xp(yx)=1,而 X X X Y Y Y分别看作信道的输入和输出。
  • 离散无记忆信道DMC n n n次扩展是指信道 ( X n , p ( y n ∣ x n ) , Y n ) (\mathcal X^n,p(y^n\mid x^n),\mathcal Y^n) (Xn,p(ynxn),Yn),其中
    p ( y k ∣ x k , y k − 1 ) = p ( y k ∣ x k ) , k = 1 , 2 , ⋯   , n p(y_k\mid x^k,y^{k-1}) = p(y_k \mid x_k),k=1,2,\cdots,n p(ykxk,yk1)=p(ykxk),k=1,2,,n
  • 信道 ( X , p ( y ∣ x ) , Y ) (\mathcal X,p(y\mid x),\mathcal Y) (X,p(yx),Y) ( M , n ) (M,n) (M,n)码由以下几部分构成
    1. 下标集 { 1 , 2 , ⋯   , M } \{1,2,\cdots,M\} {1,2,,M}
    2. 编码函数 X n : { 1 , 2 , ⋯   , M } → X n X^n:\{1,2,\cdots,M\} \rightarrow \mathcal X^n Xn:{1,2,,M}Xn,生成码字 x n ( 1 ) , x n ( 2 ) , ⋯   , x n ( M ) x^n(1),x^n(2),\cdots,x^n(M) xn(1),xn(2),,xn(M)。所有码字的集合称为码簿codebook
    3. 译码函数
      g : Y n → { 1 , 2 , ⋯   , M } g:\mathcal Y^n \rightarrow \{1,2,\cdots,M\} g:Yn{1,2,,M}
      它是一个确定性规则,为每个收到的字符向量指定一个猜测。
  • 条件误差概率,设
    λ i = Pr ⁡ ( g ( Y n ) ≠ i ∣ X n = x n ( i ) ) = ∑ y n p ( y n ∣ x n ( i ) ) I ( g ( y n ) ≠ i ) \lambda_i = \Pr(g(Y^n) \neq i \mid X^n = x^n(i)) = \sum_{y^n} p(y^n\mid x^n(i))I(g(y^n) \neq i) λi=Pr(g(Yn)=iXn=xn(i))=ynp(ynxn(i))I(g(yn)=i)
    为已知下标 i i i被发送的条件下的条件误差概率conditional probability of error,其中 I ( ⋅ ) I(\cdot) I()为示性函数。
  • ( M , n ) (M,n) (M,n)码的最大误差概率 λ ( n ) \lambda^{(n)} λ(n) maximum probability of error定义为
    λ ( n ) = max ⁡ i ∈ ( 1 , 2 , ⋯   , M ) λ i \lambda^{(n)} = \max_{i \in (1,2,\cdots,M)} \lambda_i λ(n)=i(1,2,,M)maxλi
  • ( M , n ) (M,n) (M,n)码的平均误差概率 P e ( n ) P_e^{(n)} Pe(n) average probability of error定义为
    P e ( n ) = 1 M ∑ i = 1 M λ i P_e^{(n)} = \frac 1M \sum_{i=1}^M \lambda_i Pe(n)=M1i=1Mλi
    注意,如果原消息 W W W是从集合 { 1 , 2 , ⋯   , M } \{1,2,\cdots,M\} {1,2,,M}中的均匀分布中选出的,以及 X n = x n ( W ) X^n=x^n(W) Xn=xn(W),则
    P e ( n ) = Pr ⁡ ( W ≠ g ( Y n ) ) ≤ λ ( n ) P_e^{(n)} = \Pr(W \neq g(Y^n)) \leq \lambda^{(n)} Pe(n)=Pr(W=g(Yn))λ(n)
  • ( M , n ) (M,n) (M,n)码的码率 R R R rate
    R = log ⁡ M n (比特 / 传输) R = \frac {\log M} {n} (比特/传输) R=nlogM(比特/传输)
  • 如果存在一个 ( ⌈ 2 n R ⌉ , n ) (\lceil 2^{nR} \rceil,n) (⌈2nR,n)码序列,满足当$n \rightarrow 0 时,最大误差概率 时,最大误差概率 时,最大误差概率\lambda^{(n)} \rightarrow 0 , 则称码率 ,则称码率 ,则称码率R$是可达的
  • 信道的容量定义为所有可达码率的上确界

联合典型序列

服从分布 p ( x , y ) p(x,y) p(x,y)的联合典型序列 { { x n , y n } } \{\{x^n,y^n\}\} {{xn,yn}}所构成的集合 A ε ( n ) A_\varepsilon^{(n)} Aε(n)是满足下列条件的集合
A ε ( n ) = { ( x n , y n ) ∈ X n × Y n : ∣ − 1 n log ⁡ p ( x n ) − H ( X ) ∣ < ε ∣ − 1 n log ⁡ p ( y n ) − H ( Y ) ∣ < ε ∣ − 1 n log ⁡ p ( x n , y n ) − H ( X , Y ) ∣ < ε } \begin{aligned} A_\varepsilon^{(n)} = & \{(x^n,y^n)\in \mathcal X^n \times \mathcal Y^n: \\& \mid -\frac1n \log p(x^n) - H(X) \mid < \varepsilon \\& \mid -\frac1n \log p(y^n) - H(Y) \mid < \varepsilon \\& \mid -\frac1n \log p(x^n,y^n) - H(X,Y) \mid < \varepsilon \} \end{aligned} Aε(n)={(xn,yn)Xn×Yn:n1logp(xn)H(X)∣<εn1logp(yn)H(Y)∣<εn1logp(xn,yn)H(X,Y)∣<ε}
其中
p ( x n , y n ) = ∏ i = 1 n p ( x i , y i ) p(x^n,y^n) = \prod_{i=1}^n p (x_i,y_i) p(xn,yn)=i=1np(xi,yi)
(联合AEP)设 ( X n , Y n ) (X^n,Y^n) (Xn,Yn)为服从 p ( x n , y n ) = ∏ i = 1 n p ( x i , y i ) p(x^n,y^n)=\prod_{i=1}^np(x_i,y_i) p(xn,yn)=i=1np(xi,yi) i . i . d i.i.d i.i.d n n n长序列,则满足:

  1. n → ∞ n \rightarrow \infty n时, Pr ⁡ ( ( X n , Y n ) ∈ A ε ( n ) ) → 1 \Pr((X^n,Y^n) \in A_\varepsilon^{(n)}) \rightarrow 1 Pr((Xn,Yn)Aε(n))1
  2. ∣ A ε ( n ) ∣ ≤ 2 n ( H ( X , Y ) + ε ) \mid A_\varepsilon^{(n)} \mid \leq 2^{n(H(X,Y)+\varepsilon)} Aε(n)∣≤2n(H(X,Y)+ε)
  3. 如果 ( X ~ n , Y ~ n ) ∼ p ( x n ) p ( y n ) (\tilde X^n,\tilde Y^n) \sim p(x^n)p(y^n) (X~n,Y~n)p(xn)p(yn),即 X ~ n \tilde X^n X~n Y ~ n \tilde Y^n Y~n是独立的且与 p ( x n , y n ) p(x^n,y^n) p(xn,yn)有相同的边缘分布,那么
    Pr ⁡ ( ( X ~ n , Y ~ n ) ∈ A ε ( n ) ) ≤ 2 − n ( I ( X ; Y ) − 3 ε ) \Pr((\tilde X^n,\tilde Y^n)\in A_\varepsilon^{(n)}) \leq 2^{-n(I(X;Y)-3\varepsilon)} Pr((X~n,Y~n)Aε(n))2n(I(X;Y)3ε)
    而且对于充分大的 n n n
    Pr ⁡ ( ( X ~ n , Y ~ n ) ∈ A ε ( n ) ) ≥ ( 1 − ε ) 2 − n ( I ( X ; Y ) + 3 ε ) \Pr((\tilde X^n,\tilde Y^n)\in A_\varepsilon^{(n)}) \geq (1-\varepsilon)2^{-n(I(X;Y)+3\varepsilon)} Pr((X~n,Y~n)Aε(n))(1ε)2n(I(X;Y)+3ε)

信道编码定理

对于离散无记忆信道,小于信道容量 C C C的所有码率都是可达的。具体来说,对任意码率 R < C R < C R<C,存在一个 ( 2 n R , n ) (2^{nR},n) (2nR,n)码序列,它的最大误差概率为 λ ( n ) → 0 \lambda^{(n)} \rightarrow 0 λ(n)0
反之,任何满足 λ ( n ) → 0 \lambda^{(n)} \rightarrow 0 λ(n)0 ( 2 n R , n ) (2^{nR},n) (2nR,n)码序列必有 R ≤ C R \leq C RC
这一定理又被称为香农第二定理

反馈容量

对于离散无记忆信道,反馈并不能增加信道容量,即 C F B = C C_{FB}=C CFB=C

信源信道定理

如果随机过程的熵 H > C H>C H>C,则该过程不能通过离散无记忆信道被可靠的传输。相反,如果随机过程满足AEP,且 H < C H<C H<C,则信源可以被可靠的传输。

微分熵

h ( X ) = h ( f ) = − ∫ S f ( x ) log ⁡ f ( x ) d x f ( X n ) = 2 − n h ( X ) V o l ( A ε ( n ) ) = 2 n h ( X ) h ( N ( 0 , σ 2 ) ) = 1 2 log ⁡ 2 π e σ 2 h ( N n ( μ , K ) ) = 1 2 log ⁡ ( 2 π e ) n ∣ K ∣ D ( f ∣ ∣ g ) = ∫ f log ⁡ f i g ≥ 0 h ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n h ( X i ∣ X 1 , X 2 , ⋯   , X i − 1 ) h ( X ∣ Y ) ≤ h ( X ) h ( a X ) = h ( X ) + log ⁡ ∣ a ∣ I ( X ; Y ) = ∫ f ( x , y ) log ⁡ f ( x , y ) f ( x ) f ( y ) ≥ 0 max ⁡ E X X ′ = K h ( X ) = 1 2 log ⁡ ( 2 π e ) n ∣ K ∣ E ( X − X ^ ( Y ) ) 2 ≥ 1 2 π e e 2 h ( X ∣ Y ) \begin{aligned} &h(X) = h(f) = -\int_S f(x) \log f(x)dx\\ &f(X^n)=2^{-nh(X)}\\ &Vol(A_\varepsilon^{(n)}) = 2^{nh(X)}\\ &h(\mathcal N(0,\sigma^2)) = \frac12 \log 2\pi e \sigma^2\\ &h(\mathcal N_n(\mu,K)) = \frac 12 \log (2\pi e)^n\mid K \mid\\ &D(f\mid\mid g) = \int f\log \frac fig \geq 0\\ &h(X_1,X_2,\cdots,X_n)= \sum_{i=1}^n h(X_i\mid X_1,X_2,\cdots,X_{i-1})\\ &h(X\mid Y) \leq h(X)\\ &h(aX) = h(X) + \log \mid a\mid\\ &I(X;Y)=\int f(x,y) \log \frac {f(x,y)}{f(x)f(y)} \geq 0\\ &\max_{E\pmb X\pmb X'=\pmb K}h(\pmb X) = \frac12 \log (2\pi e)^n \mid K \mid\\ &E(X-\hat{X}(Y))^2 \geq \frac1{2\pi e} e^{2h(X \mid Y)} \end{aligned} h(X)=h(f)=Sf(x)logf(x)dxf(Xn)=2nh(X)Vol(Aε(n))=2nh(X)h(N(0,σ2))=21log2πeσ2h(Nn(μ,K))=21log(2πe)nKD(f∣∣g)=flogifg0h(X1,X2,,Xn)=i=1nh(XiX1,X2,,Xi1)h(XY)h(X)h(aX)=h(X)+logaI(X;Y)=f(x,y)logf(x)f(y)f(x,y)0EXX=Kmaxh(X)=21log(2πe)nKE(XX^(Y))22πe1e2h(XY)

  • 2 n H ( X ) 2^{nH(X)} 2nH(X)是一个离散随机变量的有效字母表的大小
  • 2 n h ( X ) 2^{nh(X)} 2nh(X)是一个连续随机变量的有效支撑集的大小
  • 2 C 2^C 2C是一个容量为 C C C的信道的有效字母表的大小

高斯信道

  • 最大熵
    max ⁡ E X 2 = α = 1 2 log ⁡ 2 π e α \max_{EX^2=\alpha} = \frac 12 \log 2\pi e \alpha EX2=αmax=21log2πeα
  • 高斯信道
    Y i = X i + Z i , Z i ∼ N ( 0 , N ) Y_i = X_i+Z_i,Z_i \sim \mathcal N(0,N) Yi=Xi+Zi,ZiN(0,N),且满足功率限制 1 n ∑ i = 1 n x i 2 ≤ P \frac 1n \sum_{i=1}^n x_i^2 \leq P n1i=1nxi2P,
    C = 1 2 log ⁡ ( 1 + P N ) (比特/传输) C = \frac 12 \log (1+\frac PN) \tag{比特/传输} C=21log(1+NP)(比特/传输)
  • 带宽有限的可加高斯白噪声信道
    带宽为 W W W,双边功率谱密度为 N 0 / 2 N_0/2 N0/2,信号功率为 P P P,
    C = W log ⁡ ( 1 + P N 0 W ) (比特/秒) C = W\log (1+\frac P{N_0W}) \tag{比特/秒} C=Wlog(1+N0WP)(比特/)
  • k k k级并联高斯信道
    Y j = X j + Z j , j = 1 , 2 , ⋯   , k , Z j ∼ N ( 0 , N j ) , ∑ j = 1 k X j 2 ≤ P , Y_j=X_j+Z_j,j=1,2,\cdots,k,Z_j \sim \mathcal N(0,N_j),\sum_{j=1}^kX_j^2 \leq P, Yj=Xj+Zj,j=1,2,,k,ZjN(0,Nj),j=1kXj2P,
    C = ∑ i = 1 k 1 2 log ⁡ ( 1 + ( v − N i ) + N i ) C = \sum_{i=1}^k \frac 12 \log(1+\frac{(v-N_i)^+}{N_i}) C=i=1k21log(1+Ni(vNi)+)
    其中对 v v v的选取满足 ∑ ( v − N i ) + = n P \sum(v-N_i)^+=nP (vNi)+=nP
  • 可加高斯非白噪声信道
    Y i = X i + Z i , Z n ∼ N ( 0 , K Z ) Y_i=X_i+Z_i,Z^n\sim \mathcal N(0,K_Z) Yi=Xi+Zi,ZnN(0,KZ)
    C = 1 n ∑ i = 1 n 1 2 log ⁡ ( 1 + ( v − λ i ) + λ i ) C =\frac 1n \sum_{i=1}^n \frac 12 \log (1+\frac {(v-\lambda_i)^+}{\lambda_i}) C=n1i=1n21log(1+λi(vλi)+)
    其中 λ 1 , λ 2 , ⋯   , λ n ) \lambda_1,\lambda_2,\cdots,\lambda_n) λ1,λ2,,λn) K Z K_Z KZ的特征值,且对 v v v的选取满足 ∑ i ( v − λ i ) + = P \sum_{i}(v-\lambda_i)^+=P i(vλi)+=P
  • 不带反馈容量
    C n = max ⁡ t r ( K X ) ≤ n P 1 2 n log ⁡ ∣ K X + K Z ∣ ∣ K Z ∣ C_n = \max_{tr(K_X)\leq nP} \frac1{2n} \log \frac{\mid K_X+K_Z\mid}{\mid K_Z \mid} Cn=tr(KX)nPmax2n1logKZKX+KZ
  • 带反馈容量
    C n , F B = max ⁡ t r ( K X ) ≤ n P 1 2 n log ⁡ ∣ K X + Z ∣ K Z ∣ C_{n,FB} = \max_{tr(K_X)\leq nP} \frac 1{2n} \log \frac{\mid K_{X+Z}}{\mid K_Z \mid} Cn,FB=tr(KX)nPmax2n1logKZKX+Z
  • 反馈界
    C n , F B ≤ C n + 1 2 C_{n,FB} \leq C_n +\frac12 Cn,FBCn+21
    C n , F B ≤ 2 C n C_{n,FB} \leq 2C_n Cn,FB2Cn

率失真理论

量化

X X X是表示的随机变量,记 X X X的表示为 X ^ ( X ) \hat X(X) X^(X)。如果使用 R R R比特表示 X X X,则函数 X ^ \hat X X^可以有 2 R 2^R 2R个取值。要寻找 X ^ \hat X X^的最优取值(称作再生点或码点)集合以及每个曲直所对应的原像区域。

定义

  • 失真函数distortion function或者失真度量distortion measure指从信源字母表与再生字母表的乘积空间到非负实数集上的映射 d : X × X ^ → R + d:\mathcal X \times \hat{\mathcal X} \rightarrow \mathcal R^+ d:X×X^R+。失真 d ( x , x ^ ) d(x,\hat x) d(x,x^)是用来刻画使用 x ^ \hat x x^表示 x x x时的代价度量。
  • 称失真度量是有界的,如果失真的最大值有限
    d m a x = max ⁡ x ∈ X , x ^ ∈ X ^ d ( x , x ^ ) ≤ ∞ d_{max} = \max_{x\in \mathcal X,\hat x \in \hat{\mathcal X}} d(x,\hat x) \leq \infty dmax=xX,x^X^maxd(x,x^)
    在大多数情况下,再生字母表 X ^ \hat{\mathcal X} X^和信源字母表 X \mathcal X X是相同的
  • 常用的失真函数的例子
    • 汉明失真
      d ( x , x ^ ) = { 0 x = x ^ 1 x ≠ x ^ d(x,\hat x)= \begin{cases} 0 &x = \hat x\\ 1 & x \neq \hat x \end{cases} d(x,x^)={01x=x^x=x^
    • 平方误差失真
      d ( x , x ^ ) = ( x − x ^ ) 2 d(x,\hat x) = (x-\hat x)^2 d(x,x^)=(xx^)2
    • 语音编码中的 I t a k u r a − S a i t o Itakura-Saito ItakuraSaito距离
  • x n x^n xn x ^ n \hat x^n x^n序列间的失真定义为
    d ( x n , x ^ n ) = 1 n ∑ i = 1 n d ( x i , x ^ i ) d(x^n,\hat x^n) = \frac 1n \sum_{i=1}^n d(x_i,\hat x_i) d(xn,x^n)=n1i=1nd(xi,x^i)
  • 一个 ( 2 n R , n ) (2^{nR},n) (2nR,n)率失真码rate distortion code包括
    • 一个编码函数 f n : X n → { 1 , 2 , ⋯   , 2 n R } f_n:\mathcal X^n \rightarrow \{1,2,\cdots,2^{nR}\} fn:Xn{1,2,,2nR}
    • 一个译码(再生)函数 g n : { 1 , 2 , ⋯   , 2 n R } → X n g_n:\{1,2,\cdots,2^{nR}\} \rightarrow \mathcal X^n gn:{1,2,,2nR}Xn
    • 关于这个 ( 2 n R , n ) (2^{nR},n) (2nR,n)码的失真定义为 D = E d ( X n , g n ( f n ( X n ) ) ) D=Ed(X^n,g_n(f_n(X^n))) D=Ed(Xn,gn(fn(Xn))),其中所取的期望是针对 X X X的概率分布而言的
      D = ∑ x n p ( x n ) d ( x n , g n ( f n ( X n ) ) ) D = \sum_{x^n} p(x^n)d(x^n,g_n(f_n(X^n))) D=xnp(xn)d(xn,gn(fn(Xn)))
    • n n n元组 g n ( 1 ) , g n ( 2 ) , ⋯   , g n ( 2 n R ) g_n(1),g_n(2),\cdots,g_n(2^{nR}) gn(1),gn(2),,gn(2nR)记为 X ^ n ( 1 ) , X ^ n ( 2 ) , ⋯   , X ^ n ( 2 n R ) \hat X^n(1),\hat X^n(2),\cdots,\hat X^n(2^{nR}) X^n(1),X^n(2),,X^n(2nR),它构成一个码簿
    • f − 1 ( 1 ) , f − 1 ( 2 ) , ⋯   , f − 1 ( 2 n R ) f^{-1}(1),f^{-1}(2),\cdots,f^{-1}(2^{nR}) f1(1),f1(2),,f1(2nR)为相应的分配区域
  • 称率失真对 ( R , D ) (R,D) (R,D)是可达的,若存在一个 ( 2 n R , n ) (2^{nR},n) (2nR,n)率失真码序列 ( f n , g n ) (f_n,g_n) (fn,gn),满足 lim ⁡ n → ∞ E d ( X n , g n ( f n ( X n ) ) ) ≤ D \lim_{n\rightarrow \infty}Ed(X^n,g_n(f_n(X^n))) \leq D limnEd(Xn,gn(fn(Xn)))D
  • 全体可达率失真对 ( R , D ) (R,D) (R,D)所构成的集合闭包称为信源的率失真区域。
  • 对于给定的失真 D D D,满足 ( R , D ) (R,D) (R,D)包含于信源的率失真区域中的所有码率 R R R的下确界称为率失真函数 R ( D ) R(D) R(D)
  • 对于给定的码率 R R R,满足 ( R , D ) (R,D) (R,D)包含于信源的率失真区域中的所有失真 D D D的下确界称为失真率函数 D ( R ) D(R) D(R)
  • 设信源 X X X的失真度量为 d ( x , x ^ ) d(x,\hat x) d(x,x^),定义其信息率失真函数 R ( I ) ( D ) R^{(I)}(D) R(I)(D)
    R ( I ) ( D ) = max ⁡ p ( x ^ ∣ x ) : ∑ ( x , x ^ ) p ( x ) p ( x ^ ∣ x ) d ( x , x ^ ) ≤ D I ( X ; X ^ ) R^{(I)}(D) = \max_{p(\hat x\mid x):\sum_{(x,\hat x)}p(x)p(\hat x \mid x)d(x,\hat x) \leq D} I(X;\hat X) R(I)(D)=p(x^x):(x,x^)p(x)p(x^x)d(x,x^)DmaxI(X;X^)
  • 对于独立同分布的信源 X X X,若公共分布为 p ( x ) p(x) p(x)且失真函数 d ( x , x ^ ) d(x,\hat x) d(x,x^)有界,那么其率失真函数与对应的信息率失真函数相等。于是
    R ( D ) = R ( I ) ( D ) = max ⁡ p ( x ^ ∣ x ) : ∑ ( x , x ^ ) p ( x ) p ( x ^ ∣ x ) d ( x , x ^ ) ≤ D I ( X ; X ^ ) R(D) = R^{(I)}(D) = \max_{p(\hat x\mid x):\sum_{(x,\hat x)}p(x)p(\hat x \mid x)d(x,\hat x) \leq D} I(X;\hat X) R(D)=R(I)(D)=p(x^x):(x,x^)p(x)p(x^x)d(x,x^)DmaxI(X;X^)
    为在失真 D D D下的最小可达码率

伯努利信源

在汉明失真度量意义下,对于伯努利信源,有
R ( D ) = H ( p ) − H ( D ) R(D) = H(p) - H(D) R(D)=H(p)H(D)

高斯信源

在失真度量是平方误差误差的意义下,对于高斯信源,有
R ( D ) = 1 2 log ⁡ σ 2 D R(D) = \frac 12 \log \frac{\sigma^2}{D} R(D)=21logDσ2

率失真定理/香农第三定理

如果 R > R ( D ) R>R(D) R>R(D),则存在码字数目为 ∣ X ^ n ( ⋅ ) ∣ ≤ 2 n R \mid \hat X^n(\cdot)\mid \leq 2^{nR} X^n()∣≤2nR的码序列 X ^ n ( X n ) \hat X^n(X^n) X^n(Xn),使 E d ( X n , X ^ n ( X n ) ) → D Ed(X^n,\hat X^n(X^n)) \rightarrow D Ed(Xn,X^n(Xn))D。若 R < R ( D ) R< R(D) R<R(D),则这样的码序列不存在。

信源信道分离性

率失真为 R ( D ) R(D) R(D)的信源能够在信道容量为 C C C的信道中传输并且失真为 D D D,当且仅当 R ( D ) < C R(D)<C R(D)<C

信息论与统计学

TODO

最大熵

More need TODO

最大熵分布定理

f f f为概率密度函数且满足如下约束条件
∫ S f ( x ) r i ( x ) = α i ( 1 ≤ i ≤ m ) \int_S f(x)r_i(x) =\alpha_i(1 \leq i \leq m) Sf(x)ri(x)=αi(1im)
f ∗ ( x ) = f λ ( x ) = e λ 0 + ∑ i = 1 m λ i r i ( x ) , x ∈ S f^*(x) = f_\lambda(x) = e^{\lambda_0+\sum_{i=1}^m \lambda_ir_i(x)},x \in S f(x)=fλ(x)=eλ0+i=1mλiri(x),xS,再选择 λ 0 , λ 1 , ⋯   , λ m \lambda_0,\lambda_1,\cdots,\lambda_m λ0,λ1,,λm使得 f ∗ f^* f满足上式,那么,在所有这些满足约束条件的密度函数 f f f中, f ∗ f^* f是唯一使得 h ( f ) h(f) h(f)达到最大值的分布函数。

最小鉴别信息定理

某随机变量 X X X,概率分布 q ( x ) q(x) q(x)未知,已知其先验概率密度 p ( x ) p(x) p(x)及若干函数的期望
∫ S q ( x ) f m ( x ) d x = C m , m = 1 , 2 , ⋯   , M \int_S q(x) f_m(x) dx = C_m,m=1,2,\cdots,M Sq(x)fm(x)dx=Cm,m=1,2,,M
求在上述条件下对 q ( x ) q(x) q(x)的最佳估计,等价于取先验分布与目标分布之间的鉴别信息作为目标函数
D ( p ∣ ∣ q ) = ∫ s q ( x ) log ⁡ q ( x ) p ( x ) d x D(p \mid\mid q) = \int_s q(x) \log \frac {q(x)}{p(x)}dx D(p∣∣q)=sq(x)logp(x)q(x)dx
在上述约束条件下的解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

愤怒的卤蛋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值