点对点通信的信道容量定理及其证明

文章详细介绍了点对点通信的数学模型,阐述了香农的信道容量定理,并提供了数学证明。通过随机码本生成方法讨论了编码的可达性,分析了条件差错概率和平均差错概率,证明当编码速率小于信道容量时,平均差错概率趋近于零。此外,还讨论了Fanos不等式和数据处理不等式在证明过程中的应用。
摘要由CSDN通过智能技术生成

点对点通信

数学模型

  发送端发送消息 M M M,首先通过编码器,将消息M用编码序列 X n X^n Xn表示, X n X^n Xn进入信道传输,接收端接收到信号 Y n Y^n Yn,通过译码器得到对消息 M M M的估计 M ^ \hat M M^

首先考虑离散无记忆信道 p ( y ∣ x ) p(y|x) p(yx),通信模型如下图所示:

点对点通信系统

信道容量定理

香农提出,离散无记忆信道 p ( y ∣ x ) p(y|x) p(yx)的容量:
C = max ⁡ p ( x ) I ( X ; Y ) C = \underset{p(x)}{\max} I(X;Y) C=p(x)maxI(X;Y)

数学证明

  编码序列的长度为n,每个位置携带 R R R bits的信息,有 2 R 2^R 2R种可能,所以长度为n的序列有 2 n R 2^{nR} 2nR种可能,可以对应 2 n R 2^{nR} 2nR种消息,也即是消息的个数。

可达性证明

  要证明信道容量定理的可达性,即是要证明对于任意的 R < C = max ⁡ p ( x ) I ( X ; Y ) R < C = \underset{p(x)}{\max}I(X;Y) R<C=p(x)maxI(X;Y),都存在一个编码序列 ( 2 n R , n ) (2^{nR},n) (2nR,n),使得当 n → ∞ n \rightarrow \infty n时,平均差错概率 P e ( n ) P_e^{(n)} Pe(n)趋向于0。

随机码本生成

encoder和decoder均已知码本

   X X X的概率质量函数为 p ( x ) p(x) p(x)。随机独立的生成 2 n R 2^{nR} 2nR个,长度为n的序列 x n ( m ) x^n(m) xn(m) m ∈ [ 1 : 2 n R ] m \in [1:2^{nR}] m[1:2nR] m m m类似一个标号,用以代表从第一个到第 2 n R 2^{nR} 2nR个序列)。每一个 x n x^n xn的概率为 p ( x n ) = ∏ i = 1 n p X ( x i ) p(x^n) = \prod\limits_{i=1}\limits^np_X(x_i) p(xn)=i=1npX(xi),生成的所有序列构成一个码本 C C C

p ( C ) = ∏ m = 1 2 n R ∏ i = 1 n p X ( x i ( m ) ) p(C) = \prod\limits_{m=1}\limits^{2^{nR}} \prod\limits_{i=1}\limits^n p_X(x_i(m)) p(C)=m=12nRi=1npX(xi(m)) p ( C ) = 1 , C p(C) = 1,C p(C)=1,C是由码字 x n ( 1 ) , x n ( 2 ) , . . . , x n ( 2 ⌈ n R ⌉ ) x^n(1),x^n(2),...,x^n(2^{\lceil{nR}\rceil}) xn(1),xn(2),...,xn(2nR)组成的码本集合

  发送端发送信号 x n ( m ) x^n(m) xn(m),接收端收到信号 y n y^n yn,如果存在唯一的消息 m ^ \hat m m^,使得 ( x n ( m ^ ) , y n ) ∈ T ε ( n ) (x^n(\hat m),y^n) \in \Tau_{\varepsilon}^{(n)} (xn(m^),yn)Tε(n) T ε ( n ) \Tau_{\varepsilon}^{(n)} Tε(n)(联合典型集),则判定发送端发送的消息是第 m ^ \hat m m^个序列;否则,如果没有这样一个消息 m ^ \hat m m^或者有多个这样的消息,满足条件 ( x n ( m ^ ) , y n ) ∈ T ε ( n ) (x^n(\hat m),y^n) \in \Tau_{\varepsilon}^{(n)} (xn(m^),yn)Tε(n),则判定一个error e已经发生。

  假设消息 M M M是均匀分布, M ∼ U n i f [ 1 : 2 n R ] M \sim Unif[1:2^{nR}] MUnif[1:2nR]

条件差错概率

  在已知发送的是第 m m m个消息序列的条件下,译码器估计的结果并不是第 m m m个消息序列的概率,称为条件差错概率,记为 λ m ( C ) \lambda_m(C) λm(C)
λ m ( C ) = P ( M ^ ≠ m ∣ M = m ) \lambda_m(C) = P(\hat M \neq m | M = m) λm(C)=P(M^=mM=m)

平均差错概率

基于码本 C C C的平均差错概率,定义如下:
P e n ( C ) = P ( M ^ ≠ M ) = 1 2 ⌈ n R ⌉ ∑ m = 1 2 ⌈ n R ⌉ λ m ( C ) P_e^{n}(C) = P(\hat M \neq M) = \frac{1}{2^{\lceil{nR}\rceil}}\sum\limits_{m=1}\limits^{2^{\lceil{nR}\rceil}} \lambda_m(C) Pen(C)=P(M^=M)=2nR1m=12nRλm(C)
若存在一个码本 C C C ( 2 n R , n ) (2^{nR},n) (2nR,n),有:
l i m n → ∞ P e ( n ) ( C ) = 0 \underset{n\rightarrow\infty}{lim}P_e^{(n)}(C) = 0 nlimPe(n)(C)=0则称速率R是可达的。

差错概率分析

  为了后续证明方便,不妨假设 n R nR nR是整数(不是整数的时候向上取整即可,只是换个符号 2 ⌈ n R ⌉ 2^{\lceil{nR}\rceil} 2nR而已,道理是一样的)。

假设发送端发送的是第 m m m个消息序列,出现以下情况1 or 2:

  1. ( x n ( m ) , y n ) ∉ T ε ( n ) (x^n(m),y^n) \notin \Tau_{\varepsilon}^{(n)} (xn(m),yn)/Tε(n)
  2. 存在 m ′ ≠ m , ( x n ( m ′ ) , y n ) ∈ T ε ( n ) m^{\prime} \neq m, (x^n(m^{\prime}),y^n) \in \Tau_{\varepsilon}^{(n)} m=m,(xn(m),yn)Tε(n)

则判定译码发生error,关于码本 C C C和消息 M M M的平均差错概率为:

P ( E ) = E C ( P e ( n ) ) P(\mathcal{E}) = E_C(P_e^{(n)}) P(E)=EC(Pe(n)) = E C ( 1 2 n R ∑ m = 1 2 n R λ m ( C ) ) =E_C(\frac{1}{2^{nR}}\sum\limits_{m=1}\limits^{2^{nR}}\lambda_m(C)) =EC(2nR1m=12nRλm(C)) = 1 2 n R ∑ m = 1 2 n R E C ( λ m ( C ) ) =\frac{1}{2^{nR}}\sum\limits_{m=1}\limits^{2^{nR}}E_C(\lambda_m(C)) =2nR1m=12nREC(λm(C)) = E C ( λ 1 ( C ) ) =E_C(\lambda_1(C)) =EC(λ1(C)) = P ( E ∣ M = 1 ) =P(\mathcal{E}|M=1) =P(EM=1)

因为 M M M满足均匀分布,所以每个消息序列出现的概率均为 1 2 n R \frac{1}{2^{nR}} 2nR1。根据随机码本生成的对称性,对于任一 m ∈ [ 1 : 2 n R ] m\in [1:2^{nR}] m[1:2nR],其对应的 λ m ( C ) \lambda_ m(C) λm(C)均相同。

下面的说明建立在发送端发送的消息为 M = 1 M=1 M=1

当且仅当出现下面情况中的其中一项或者都出现的时候,判定译码器出错:
E 1 = ( X n ( 1 ) , Y n ) ∉ T ε ( n ) \mathcal{E}_1 = (X^n(1),Y^n) \notin \Tau_\varepsilon^{(n)} E1=(Xn(1),Yn)/Tε(n) E 2 = ( X n ( m ) , Y n ) ∈ T ε ( n ) , m ≠ 1 \mathcal{E}_2 = (X^n(m),Y^n) \in \Tau_\varepsilon^{(n)} , {m \neq 1} E2=(Xn(m),Yn)Tε(n),m=1
平均差错概率:
P ( E ) = P ( E 1 ∪ E 2 ) ≤ P ( E 1 ) + P ( E 2 ) P(\mathcal{E}) = P(\mathcal{E}_1 \cup \mathcal{E}_2) \leq P(\mathcal{E}_1)+P(\mathcal{E}_2) P(E)=P(E1E2)P(E1)+P(E2)对于第一项,根据大数定理,当 n → ∞ n \rightarrow \infty n时, P ( E 1 ) → 0 P(\mathcal{E}_1) \rightarrow 0 P(E1)0

对于第二项:

因为 m ≠ 1 m\neq1 m=1,有:
( X n ( m ) , X n ( 1 ) , Y n ) ∼ ∏ i = 1 n P X ( x i ( m ) ) P X , Y ( x i ( 1 ) , y i ) (X^n(m),X^n(1),Y^n)\sim \prod\limits_{i=1}\limits^n P_X(x_i(m))P_{X,Y}(x_i(1),y_i) (Xn(m),Xn(1),Yn)i=1nPX(xi(m))PX,Y(xi(1),yi) ( X n ( m ) , Y n ) ∼ ∏ i = 1 n P X ( x i ( m ) ) P Y ( y i ) (X^n(m),Y^n) \sim \prod\limits_{i=1}\limits^n P_X(x_i(m))P_Y(y_i) (Xn(m),Yn)i=1nPX(xi(m))PY(yi)

联合典型列

联合典型性引理的扩展可得:
P ( ( X n ( m ) , Y n ) ∈ T ε ( n ) ) ≤ 2 − n ( I ( X , Y ) − δ ( ϵ ) ) = 2 − n ( C − δ ( ϵ ) ) P((X^n(m),Y^n)\in \Tau_\varepsilon^{(n)}) \leq 2^{-n(I(X,Y)-\delta(\epsilon))} = 2^{-n(C-\delta(\epsilon))} P((Xn(m),Yn)Tε(n))2n(I(X,Y)δ(ϵ))=2n(Cδ(ϵ))则有下式成立:
P ( E 2 ) ≤ ∑ m = 2 2 n R P { ( X n ( m ) , Y n ) ∈ T ϵ ( n ) } ≤ ∑ m = 2 2 n R 2 − n ( C − δ ( ϵ ) ) ≤ 2 − n ( C − R − δ ( ϵ ) ) \mathrm{P}\left(\mathcal{E}_2\right) \leq \sum_{m=2}^{2^{n R}} \mathrm{P}\left\{\left(X^n(m), Y^n\right) \in \mathcal{T}_\epsilon^{(n)}\right\} \leq \sum_{m=2}^{2^{n R}} 2^{-n(C-\delta(\epsilon))} \leq 2^{-n(C-R-\delta(\epsilon))} P(E2)m=22nRP{(Xn(m),Yn)Tϵ(n)}m=22nR2n(Cδ(ϵ))2n(CRδ(ϵ))当n趋向于无穷,对于 R < C R<C R<C,令 ϵ → 0 \epsilon \rightarrow 0 ϵ0时,则有 δ ( ϵ ) → 0 \delta(\epsilon) \rightarrow 0 δ(ϵ)0,则有 R < C − δ ( ϵ ) R<C-\delta(\epsilon) R<Cδ(ϵ) 2 − n ( C − R − δ ( ϵ ) ) → 0 2^{-n(C-R-\delta(\epsilon))} \rightarrow 0 2n(CRδ(ϵ))0

即是, P ( E 2 ) → 0 \mathrm{P}\left(\mathcal{E}_2\right) \rightarrow 0 P(E2)0

那么,对于任意 R < C R<C R<C,有平均差错概率 P ( E ) → 0 P(\mathcal{E}) \rightarrow 0 P(E)0,也即是信道容量定理的可达性得到证明。

可逆性证明

  对于每一个,当 n → ∞ n \rightarrow \infty n,平均差错概率 P e ( n ) P_e^{(n)} Pe(n)趋向于0的编码序列 ( 2 n R , n ) (2^{nR},n) (2nR,n),速率一定满足 R ≤ C = max ⁡ p ( x ) I ( X ; Y ) R \leq C=\underset{p(x)}{\max}I(X;Y) RC=p(x)maxI(X;Y)

( M , X n , Y n ) (M,X^n,Y^n) (M,Xn,Yn)的概率质量函数: p ( m , x n , y n ) = 2 − n R p ( x n ∣ m ) ∏ i = 1 n p Y ∣ X ( y i ∣ x i ) p\left(m, x^n, y^n\right)=2^{-n R} p\left(x^n \mid m\right) \prod_{i=1}^n p_{Y \mid X}\left(y_i \mid x_i\right) p(m,xn,yn)=2nRp(xnm)i=1npYX(yixi)

Fano’s inequality

( X , Y ) ∼ p ( x , y ) (X,Y)\sim p(x,y) (X,Y)p(x,y) and P e = P ( X ≠ Y ) P_e = P(X \neq Y) Pe=P(X=Y),有下式成立:
H ( X ∣ Y ) ≤ H ( P e ) + P e log ⁡ ∣ X ∣ ≤ 1 + P e log ⁡ ∣ X ∣ H(X \mid Y) \leq H\left(P_e\right)+P_e \log |\mathcal{X}| \leq 1+P_e \log |\mathcal{X}| H(XY)H(Pe)+PelogX1+PelogX ∣ X ∣ |\mathcal{X}| X集合 X \mathcal{X} X的元素个数, x ∈ X x\in \mathcal X xX X \mathcal X X变量 X X X的取值集合

根据Fano’s inequality,有下式成立:
H ( M ∣ M ^ ) ≤ 1 + P e ( n ) n R = n ϵ n H(M \mid \hat{M}) \leq 1+P_e^{(n)} n R=n \epsilon_n H(MM^)1+Pe(n)nR=nϵn ϵ n = ( 1 n + P e ( n ) R ) \epsilon_n = (\frac{1}{n} + P_e^{(n)} R) ϵn=(n1+Pe(n)R),因为 lim ⁡ n → ∞ P e ( n ) = 0 \underset{n\rightarrow \infty}\lim P_e^{(n)} = 0 nlimPe(n)=0,所以当 n → ∞ n \rightarrow \infty n,有 ϵ n → 0 \epsilon_n \rightarrow 0 ϵn0

data processing inequality

X → Y → Z X \rightarrow Y \rightarrow Z XYZ,有下式成立:
I ( X ; Z ) ≤ I ( X ; Y ) I(X;Z)\leq I(X;Y) I(X;Z)I(X;Y)证明: I ( X ; Y , Z ) = I ( X ; Y ) + I ( X ; Z ∣ Y ) = I ( X ; Y ) = I ( X ; Z ) + I ( X ; Y ∣ Z ) ≥ I ( X ; Z ) \begin{aligned} I(X ; Y, Z) & =I(X ; Y)+I(X ; Z \mid Y)=I(X ; Y) \\ & =I(X ; Z)+I(X ; Y \mid Z) \geq I(X ; Z) \end{aligned} I(X;Y,Z)=I(X;Y)+I(X;ZY)=I(X;Y)=I(X;Z)+I(X;YZ)I(X;Z)

根据data processing inequality,有下式成立:
H ( M ∣ Y n ) ≤ H ( M ∣ M ^ ) ≤ n ϵ n H\left(M \mid Y^n\right) \leq H(M \mid \hat{M}) \leq n \epsilon_n H(MYn)H(MM^)nϵn补充: M → Y n → M ^ M \rightarrow Y^n \rightarrow \hat M MYnM^形成一个马尔科夫链,有 I ( M ; M ^ ) ≤ I ( M ; Y n ) I(M;\hat M)\leq I(M;Y^n) I(M;M^)I(M;Yn) − I ( M ; M ^ ) ≥ − I ( M ; Y n ) -I(M;\hat M)\geq -I(M;Y^n) I(M;M^)I(M;Yn) H ( M ) − I ( M ; M ^ ) ≥ H ( M ) − I ( M ; Y n ) H(M)-I(M;\hat M)\geq H(M)-I(M;Y^n) H(M)I(M;M^)H(M)I(M;Yn) H ( M ∣ M ^ ) ≥ H ( M ∣ Y n ) H(M|\hat{M}) \geq H(M|Y^n) H(MM^)H(MYn)
可逆性证明:
n R = H ( M ) nR = H(M) nR=H(M) H ( M ) = − ∑ i = 1 2 n R p ( m i ) l o g p ( m i ) = − 2 n R 1 2 n R l o g 1 2 n R = − ( − n R ) = n R H(M) =- \sum\limits_{i=1}\limits^{2^{nR}}p(m_i)logp(m_i ) = -2^{nR}\frac{1}{2^{nR}}log{\frac{1}{2^{nR}}} = -(-nR) = nR H(M)=i=12nRp(mi)logp(mi)=2nR2nR1log2nR1=(nR)=nR 推导:
n R = H ( M ) = I ( M ; Y n ) + H ( M ∣ Y n ) nR = H(M) =I(M;Y^n) + H(M|Y^n) nR=H(M)=I(M;Yn)+H(MYn) ≤ I ( M ; Y n ) + n ϵ n = ∑ i = 1 n I ( M ; Y i ∣ Y i − 1 ) + n ϵ n \leq I(M;Y^n) + n\epsilon_n = \sum_{i=1}^n I(M ; Y_i \mid Y^{i-1})+n \epsilon_n I(M;Yn)+nϵn=i=1nI(M;YiYi1)+nϵn ≤ ∑ i = 1 n I ( M , Y i − 1 ; Y i ) + n ϵ n = ( b ) ∑ i = 1 n I ( X i , M , Y i − 1 ; Y i ) + n ϵ n \leq \sum_{i=1}^n I\left(M, Y^{i-1} ; Y_i\right)+n \epsilon_n \stackrel{(b)}{=} \sum_{i=1}^n I\left(X_i, M, Y^{i-1} ; Y_i\right)+n \epsilon_n i=1nI(M,Yi1;Yi)+nϵn=(b)i=1nI(Xi,M,Yi1;Yi)+nϵn(b)因为 X i X_i Xi M M M的函数 = ( c ) ∑ i = 1 n I ( X i ; Y i ) + n ϵ n \stackrel{(c)}{=} \sum_{i=1}^n I\left(X_i ; Y_i\right)+n \epsilon_n =(c)i=1nI(Xi;Yi)+nϵn ( c ) (c) (c)因为信道是无记忆的, ( M , Y i − 1 ) → X i → Y i (M,Y^{i-1}) \rightarrow X_i \rightarrow Y_i (M,Yi1)XiYi形成一个马尔可夫链
≤ n C + n ϵ n \leq n C+n \epsilon_n nC+nϵn R ≤ C + ϵ n R \leq C + \epsilon_n RC+ϵn n → ∞ n \rightarrow \infty n时, ϵ n → 0 \epsilon_n \rightarrow 0 ϵn0,所以可得 n → ∞ n \rightarrow \infty n时, R ≤ C R\leq C RC,可逆性得证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

信通天使

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值