文章目录
前言
最近被高斯分布虐的比较惨,在花了很长一段时间推导mimo离散输入高斯信道容量,深感高斯分布对通信理论计算的重要性,虽然在之前的学习中一直在断断续续地学习高斯分布,但是对它的感觉总是即熟悉又陌生,因此想在这里把高斯分布基本梳理一下。
对高斯分布的疑惑,具体在这几个方面:在面试时老师问我为什么通信中高斯分布应用这么广泛,如高斯输入信号,高斯信道,高斯白噪声等等?后来在计算连续输入信号时总是见到到当输入服从高斯分布,可达到信道容量? 在射频中计算时采用的输入信号都是服从复高斯分布的。以及后面在计算离散输入时,都要想方设法通过积分变换将输入输出转移概率转变为对高斯噪声求积分?
中心极限定理
高斯分布也叫正态分布,其英文名为:Normal Distribution,所谓人如其名,可见这个分布在生活中很常见,我第一次接触高斯分布是在高中数学课,当时数学老师给我们讲解了球下落的实验(后来才知道是叫高尔顿钉板实验),他说最终球的分布会服从高斯分布,又比如,他说,每个班级的考试乘积从理论上服从高斯分布才是最正常的,高分和低分的人都很少,处于中间位置的人数才是最多的,只要统计数据足够多,这也是他作为班主任一直想要坚持的目标(哈哈,第一次听说不想要更多高分)。还比如人的身高也应该是接近服从高斯分布的。换句话说,高斯分布在自然界中是最常见的,(你敢信,这也是我在面试过程中的回答哈哈)。
中心极限定理:
后面复习了随机过程才知道,原来存在这样一条定理,想必大家也都知道了,中心极限定理告诉我们:大量的独立的随机变量的和近似服从高斯分布。具体原因可参见百科。
通信中为什么高斯分布应用这么广泛呢?
分两块来说一说:
其实,高斯信道和高斯白噪声常放在一起。高斯信道是最简单的信道,常指加性高斯白噪声(AWGN)信道。其实,高斯信道和高斯白噪声常放在一起。高斯信道是最简单的信道,常指加性高斯白噪声(AWGN)信道。常采用高斯噪声的原因是,在现实生活中,信道噪声的源头往往很多,假设这些噪声足够多且其概率分布是彼此独立的,那么其累加和的概率分布是接近高斯分布的。这些噪声往往是未知且复杂的,假设其为高斯噪声也可以看出一个简化的过程,理论上是满足中心极限定理,计算上也方便了很多。
那么,输入信号采用高斯信号的原因,个人理解是,因为理论上经过计算,当输入信号为连续信号并且服从高斯分布时能够达到最大信道容量。,例如在通信的资源分配中,通过假设输入满足高斯分布,可以得到其容量表达式----香农公式。然后我们可以通过最大化这个容量(也有可能是容量的上下界),求出使得容量最大化时对应的预编码矩阵等等问题。换言之,输入采用高斯分布,可得到关于信道容量的极限信息,相当于我们站在巨人的肩膀上,方便后续的计算。
高斯信号容量的计算
高斯信道的定义
Y
i
=
X
i
+
Z
i
{Y_i} = {X_i} + {Z_i}
Yi=Xi+Zi
- 输入 X i ∈ R ( − ∞ , + ∞ ) {X_i} \in R\left( { - \infty , + \infty } \right) Xi∈R(−∞,+∞)
- 输出Y为随机变量
- 信道噪声 Z i {Z_i} Zi为独立同分布序列服从均值为0,方差为 σ 2 {{\sigma ^2}} σ2高斯分布
- 输入 X i {X_i} Xi与噪声 Z i {Z_i} Zi相互独立
在生活中,输入信号的能量或者功率往往都是有限的,这反映在高斯信道中,假设输入信号
(
x
1
,
x
2
,
⋯
,
x
n
)
\left( {{x_1},{x_2}, \cdots ,{x_n}} \right)
(x1,x2,⋯,xn),存在平均功率约束:
1
n
∑
i
=
1
n
x
i
2
≤
P
\frac{1}{n}\sum\limits_{i = 1}^n {{x_i}^2} \le P
n1i=1∑nxi2≤P
为什么高斯输入会达到信道容量
这个证明过程参考的是Thomas M Cover 的信息论基础里高斯信道那一章节。
信道容量的求解:
根据互信息的定义:输入功率显著为P的高斯信道的容量为:
其中,(1b)至(1e)是因为X和Z是独立的,在这一部分可以看出,最大化互信息也就是最大化输出的熵。
(1f)中前面一部分是因为在给定方差下,高斯分布使得熵最大,后面一部分是因为噪声的熵是
1
2
log
2
π
e
(
σ
2
)
\frac{1}{2}\log 2\pi e\left( {{\sigma ^2}} \right)
21log2πe(σ2),下面给出这两个定理或公式的证明或计算:
(1). H ( Z ) {H\left( Z \right)} H(Z)
前面提过,信道噪声
Z
{Z}
Z为独立同分布序列服从均值为0,方差为
σ
2
{{\sigma ^2}}
σ2高斯分布,即:
f
(
z
)
=
1
2
π
σ
e
−
z
2
2
σ
2
f\left( z\right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{{{z^2}}}{{2{\sigma ^2}}}}}
f(z)=2πσ1e−2σ2z2
(2).高斯分布在给定方差条件下具有最大熵
有几种证明方法,基于公式太多,直接给出博客链接:
正态分布和最大熵这一篇直接证明这个结论的。即求一个分布使得熵最大,这个分布是高斯分布,这个从正面退不容易推,但是可证明,高斯分布时的熵是其他任何分布时的熵的上界。也可以参考Thomas M cover 的信息论基础这一本书,里面的第八章微分熵对这个证明过程也有较为详细的描述。
最大熵对应的概率分布 这一篇是通过拉格朗日乘子法求得
高斯信道容量是该信道所有可达速率的上界
在求解了高斯信道的容量之后,不禁会想,为什么高斯输入会达到信道容量?或者换句话说,高斯信道容量是该信道所有可达速率的上界?
这个证明过程可参考Thomas M Cover 的信息论基础里高斯信道那一章节。
这里涉及到香农著名的有噪信道编码定理,
换句话说,如果信息传输速率R<C,我们总能找到一种编码和译码方法,使得错误概率趋于0。
书上的证明可达性的过程是这样的,(个人感觉有点晦涩难懂),就直接放图吧。
至此证明完毕高斯信道容量是可达速率的上界。
看到这里,基本上对通信中高斯信道容量的推导及原因大致清楚了。
实高斯信号与复高斯信号
接着,说说实高斯信号与复高斯信号,以及通信中RF(射频)链路计算中为什么采用复信号,(对于可见光通信系统,计算时采用的是实信号)
这里就随便说一点把,应该知道,复信号实际上是不存在于真实世界中的,引入复数的原因是方便傅里叶变换,可以把复信号变为
e
j
w
t
e^{jwt}
ejwt的形式,使得数学分析和计算更为简单,为此出现了信号的频域分析,以及后面的各种调制解调,变频等操作。期待补充!
实高斯随机标量
一个标量实高斯随机变量分布我们都很熟悉了,其概率密度函数为:
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
f\left( x \right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}}}}
f(x)=2πσ1e−2σ2(x−μ)2
其最重要的一点特征是线性变换不变性,即相互独立的高斯随机变量的线性组合仍是高斯随机变量。
实高斯随机向量
本部分参考:bingjianing
如果输信号x是一个nx1维的向量(通信里面常把输入信号视为列向量),即 x = [ x 1 , x 2 , ⋯ , x n ] T {\bf{x}} = {\left[ {{x_1},{x_2}, \cdots ,{x_n}} \right]^T} x=[x1,x2,⋯,xn]T,
先看看最简单的情况,独立多维正太分布
假设各个维度上的信号服从高斯分布且不相关。各个维度的信号的均值和方差分别为:
μ
1
,
μ
2
,
⋯
,
μ
n
{\mu _1},{\mu _2}, \cdots ,{\mu _n}
μ1,μ2,⋯,μn以及
σ
1
2
,
σ
2
2
,
⋯
,
σ
n
2
\sigma _1^2,\sigma _2^2, \cdots ,\sigma _n^2
σ12,σ22,⋯,σn2。
参考知乎回答:信陵君魏无忌
那么,因为联合概率密度等于各自概率密度的乘积,该高斯随机向量的概率密度为:
f
(
x
)
=
1
2
π
σ
1
e
−
1
2
(
x
1
−
μ
1
)
2
σ
1
2
1
2
π
σ
2
e
−
1
2
(
x
2
−
μ
2
)
2
σ
2
2
⋯
1
2
π
σ
n
e
−
1
2
(
x
n
−
μ
n
)
2
σ
n
2
f\left( {\bf{x}} \right) = \frac{1}{{\sqrt {2\pi } {\sigma _1}}}{e^{ - \frac{1}{2}\frac{{{{\left( {{x_1} - {\mu _1}} \right)}^2}}}{{\sigma _1^2}}}}\frac{1}{{\sqrt {2\pi } {\sigma _2}}}{e^{ - \frac{1}{2}\frac{{{{\left( {{x_2} - {\mu _2}} \right)}^2}}}{{\sigma _2^2}}}} \cdots \frac{1}{{\sqrt {2\pi } {\sigma _n}}}{e^{ - \frac{1}{2}\frac{{{{\left( {{x_n} - {\mu _n}} \right)}^2}}}{{\sigma _n^2}}}}
f(x)=2πσ11e−21σ12(x1−μ1)22πσ21e−21σ22(x2−μ2)2⋯2πσn1e−21σn2(xn−μn)2
整理一下,把指数部分写成矩阵的形式(类似线代中常提到的二次型):
定义下列一个符号:行j列的元素值表示xi与xj的协方差,这里因为各维变量是相互独立的,所以只有对角线上有值,对角线上的元素意义为xi与其本身的协方差,等同于xi的方差
而
σ
1
σ
2
⋯
σ
n
=
v
a
r
(
x
)
=
σ
x
=
∣
Σ
∣
1
2
{\sigma _1}{\sigma _2} \cdots {\sigma _n} = \sqrt {{\mathop{\rm var}} \left( {\bf{x}} \right)} = {\sigma _{\bf{x}}} = {\left| \Sigma \right|^{\frac{1}{2}}}
σ1σ2⋯σn=var(x)=σx=∣Σ∣21
代入高斯概率密度函数公式可得,n维高斯随机向量的概率密度函数为: f ( x ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 e ( x − μ ) T ∑ − 1 ( x − μ ) f\left( {\bf{x}} \right) = \frac{1}{{{{\left( {2\pi } \right)}^{\frac{n}{2}}}{{\left| \Sigma \right|}^{\frac{1}{2}}}}}{e^{{{\left( {{\bf{x}} - {\bf{\mu }}} \right)}^T}\sum\nolimits_{}^{ - 1} {\left( {{\bf{x}} - {\bf{\mu }}} \right)} }} f(x)=(2π)2n∣Σ∣211e(x−μ)T∑−1(x−μ)
参考:Linghan Zhang
也可以看看这篇英文证明:xwcbigboy
一般来讲,向量
x
{\bf{x}}
x的各个分量并不是彼此独立的,那么该如何顺着上面相互独立的思想去推导该随机向量的概率密度函数呢?我们先来看看下面的定理1:
定理1告诉我们,我们可以对向量
x
{\bf{x}}
x做线性变换,使得其各个分量之间相互独立,然后沿着上面的思想继续做就可以了。这个定理我们应该也很熟悉,就是对高斯分布的标准化过程,即减去均值再除以标准差,只不过这里写成了向量和矩阵的形式了。
下面是推导过程:
假设随机向量的均值为
μ
{\bf{\mu }}
μ,协方差为
Σ
{\bf{\Sigma }}
Σ,经过标准化
x
−
μ
B
\frac{{{\bf{x}} - {\bf{\mu }}}}{{\bf{B}}}
Bx−μ后,可得
z
\bf{z}
z的均值为0向量,协方差为
I
\bf{I}
I。即:
x
=
B
z
+
μ
{\bf{x}} = {\bf{Bz}} + {\bf{\mu }}
x=Bz+μ,
z
=
B
−
1
(
x
−
μ
)
{\bf{z}} = {{\bf{B}}^{ - 1}}\left( {{\bf{x}} - {\bf{\mu }}} \right)
z=B−1(x−μ),
z
∼
(
0
,
I
)
{\bf{z}} \sim \left( {0,{\bf{I}}} \right)
z∼(0,I)。
代入得:
接下来用到积分代换,因为:
x
=
B
z
+
μ
{\bf{x}} = {\bf{Bz}} + {\bf{\mu }}
x=Bz+μ,所以
d
x
=
∣
B
B
T
∣
−
1
2
d
z
d{\bf{x}} = {\left| {{\bf{B}}{{\bf{B}}^T}} \right|^{ - \frac{1}{2}}}d{\bf{z}}
dx=∣∣BBT∣∣−21dz(雅可比行列式)。接着,显而易见:因为
∫
f
(
x
)
d
x
=
∫
f
(
z
)
d
z
=
1
\int {f\left( {\bf{x}} \right)} d{\bf{x}} = \int {f\left( {\bf{z}} \right)} d{\bf{z}} = 1
∫f(x)dx=∫f(z)dz=1,如果两个积分限相同,且积分变量相同,则可认为被积分的函数相同,具体如下:
所以,得到
f
(
x
)
{f\left( {\bf{x}} \right)}
f(x)的高斯分布概率密度函数:
f
(
x
)
=
1
(
2
π
)
n
2
∣
B
B
T
∣
1
2
e
−
1
2
[
(
x
−
μ
)
T
(
B
B
T
)
−
1
(
x
−
μ
)
]
f\left( {\bf{x}} \right) = \frac{1}{{{{\left( {2\pi } \right)}^{\frac{n}{2}}}{{\left| {{\bf{B}}{{\bf{B}}^T}} \right|}^{\frac{1}{2}}}}}{e^{ - \frac{1}{2}\left[ {{{\left( {{\bf{x}} - {\bf{\mu }}} \right)}^T}{{\left( {B{B^T}} \right)}^{ - 1}}\left( {{\bf{x}} - {\bf{\mu }}} \right)} \right]}}
f(x)=(2π)2n∣BBT∣211e−21[(x−μ)T(BBT)−1(x−μ)]
这里,可通过证明, Σ = B B T \Sigma = {\bf{B}}{{\bf{B}}^T} Σ=BBT,这里就不证明了,感兴趣的可以去看看相关博客。
复高斯随机标量
复高斯随机向量
类比实高斯随机向量的结论:
实高斯随机向量与复高斯随机向量
具体可参考David Tse那本无线通信基础的附录A。实在不想敲公式了,能偷懒就偷吧