判决译码
在无ISI时,任意位置 n n n上的一个符号 I n I_n In,经过AWGN信道、匹配滤波器、采样后,得到符号 Y n Y_{n} Yn Y n = I n + n n Y_{n}=I_{n}+n_{n} Yn=In+nn
- 其中, n n n_{n} nn为离散高斯白噪声
- 我们的目标:根据抽样结果(符号 Y n Y_{n} Yn)来判决发射端的符号
问题建模
传输对信号有干扰,译码就是:已知观测结果 Y \boldsymbol{Y} Y,从观测值估计参数 X \boldsymbol{X} X,模型如下: Y = H { s ( X ) } + n \boldsymbol{Y}=H\{\boldsymbol{s}(\boldsymbol{X})\}+\boldsymbol{n} Y=H{s(X)}+n其意义是,对于参数 X \boldsymbol{X} X(可包含多个参数),经函数 s s s处理后得到 s ( X ) s(\boldsymbol{X}) s(X),将其作为输入信号送入系统 H H H,最终得到观测 r \boldsymbol r r
注意,若有多次观测,则 r \boldsymbol r r可以是一个向量(离散的),也可以是一个随机信号(连续的)即 y ( t ) = s ( t ; X ) + n ( t ) y(t)=s(t;\boldsymbol{X})+n(t) y(t)=s(t;X)+n(t)
下面将会介绍,MAP/ML/LS准则分别为: X ^ = arg max X p X ∣ Y ( X ∣ Y ) X ^ = arg max X p Y ∣ X ( Y ∣ X ) X ^ = arg max X ∣ Y − H { s ( X ) } ∣ 2 \begin{aligned} \hat{\boldsymbol{X}} &=\operatorname{arg} \max _{\boldsymbol{X}} p_{\boldsymbol{X} \mid \boldsymbol{Y}}(\boldsymbol{X} \mid \boldsymbol{Y}) \\ \hat{\boldsymbol{X}} &=\arg \max _{\boldsymbol{X}} p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X}) \\ \hat{\boldsymbol{X}} &=\operatorname{arg} \max _{\boldsymbol{X}}|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} \end{aligned} X^X^X^=argXmaxpX∣Y(X∣Y)=argXmaxpY∣X(Y∣X)=argXmax∣Y−H{s(X)}∣2
两种典型的译码准则分别是最大后验概率准则MAP和最大似然准则ML
假设发出符号集 X X X(原因),接收到符号集 Y Y Y(结果),下面译码的都是都是已知 Y Y Y求解 X X X的问题
P ( X ) P(X) P(X)称为先验概率(未观测到结果 Y Y Y前, X X X的概率), P ( X ∣ Y ) P(X|Y) P(X∣Y)称为后验概率, P ( Y ∣ X ) P(Y|X) P(Y∣X)称为似然,这也是“最大后验概率”和“最大似然”的由来
最大后验概率准则MAP(Maximum A Posteriori Estimation) / 最小错误概率译码准则
收到符号
Y
Y
Y的条件下,译码为
X
X
X,目标就是后验
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)的最大化
然而问题是,后验
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)常常难以求出
最大后验概率准则MAP利用了贝叶斯公式:
P
(
X
∣
Y
)
=
P
(
X
)
P
(
Y
∣
X
)
P
(
Y
)
P(X|Y)=\frac{P(X)P(Y|X)}{P(Y)}
P(X∣Y)=P(Y)P(X)P(Y∣X)
分子上就是联合概率
P
(
X
Y
)
=
P
(
X
)
P
(
Y
∣
X
)
P(XY)=P(X)P(Y|X)
P(XY)=P(X)P(Y∣X),而分母
P
(
Y
)
P(Y)
P(Y)与问题无关,可以忽略(我们正是要对每个
Y
Y
Y估计其对应的
X
X
X)
由此,最大后验概率的问题转为求 P ( X Y ) = P ( X ) P ( Y ∣ X ) P(XY)=P(X)P(Y|X) P(XY)=P(X)P(Y∣X)最大化(相比直接求后验概率最大化,这更加可行)
MAP表明,求解最大后验 ⟺ \iff ⟺求解最大的「似然 × \times ×先验」,即 P ( X Y ) = P ( X ) P ( Y ∣ X ) P(XY)=P(X)P(Y|X) P(XY)=P(X)P(Y∣X)
最大似然准则ML(Maximum Likelihood Estimation)
Likelihood的理解:Likelihood意为似然度 / 可能性
知道了结果是 y j y_j yj,但不知道原因 x i x_i xi,那么就要寻找一个 x i x_i xi,它最贴近事实;
找到的 x i x_i xi是一个能最好描述已经发生事件的参数,“发 x i x_i xi收 y j y_j yj”是最有可能发生的
再进一步,如果先验 P ( X ) P(X) P(X)也是未知的,则MAP退化到求解「最大似然」ML
- 也就是说,MAP的 P ( X ) P ( Y ∣ X ) P(X)P(Y|X) P(X)P(Y∣X)最大化,此时退化为ML的 P ( Y ∣ X ) P(Y|X) P(Y∣X)最大化
要注意的是,仅当
X
X
X等概时,ML的结果与MAP一致;
X
X
X不等概则这样做一定会引入误差
这是容易理解的:
- 我们寻找原因 X X X,使得当前的 Y Y Y最可能出现,当然需要综合考虑 X X X本身出现的概率 P ( X ) P(X) P(X)和已知某个 X X X时得到 Y Y Y的概率 P ( Y ∣ X ) P(Y|X) P(Y∣X),这是MAP的方法;
- 然而,ML忽略了 X X X的分布,仅考虑已知某个 X X X时得到 Y Y Y的概率 P ( Y ∣ X ) P(Y|X) P(Y∣X),这种做法当然只有在 X X X等概分布时才是合理的
ML是在寻找:什么样的输入 / 原因 X X X,最有可能产生当前的观测数据 / 结果 Y Y Y,或者说为当前的事件结果 Y Y Y找一个原因 X X X,保证当前发生的事件是概率最大的事件
小结:MAP与ML的对比
从思路上:
- MAP是知道结果
Y
Y
Y,反推原因
X
X
X
寻找原因 X X X,使 P ( X ∣ Y ) P(X|Y) P(X∣Y)最大化 ⇒ \Rightarrow ⇒对每个 Y Y Y使 P ( X Y ) P(XY) P(XY)最大化 ⇒ \Rightarrow ⇒对每个 Y Y Y使 P ( X ) p ( Y ∣ X ) P(X)p(Y|X) P(X)p(Y∣X)最大化 - ML是找出一个原因
X
X
X,使事件最有可能发生
寻找原因 X X X,( X X X等概时)使 P ( Y ∣ X ) P(Y|X) P(Y∣X)最大化 ⇒ \Rightarrow ⇒然而 X X X不等概时,应该使 P ( X ) P ( Y ∣ X ) P(X)P(Y|X) P(X)P(Y∣X)最大化( X X X不等概时ML是错误的,应该重新回归到使用MAP准则上)
可见,ML是MAP的一个特例;当 X X X等概分布时,MAP准则可以简化为ML准则
最小二乘准则/最小平方准则LS
对于模型 Y = H { s ( X ) } + n \boldsymbol{Y}=H\{\boldsymbol{s}(\boldsymbol{X})\}+\boldsymbol{n} Y=H{s(X)}+n
- 当噪声 n \boldsymbol{n} n为高斯分布时,最大似然准则ML等价于最小二乘准则LS;
- 当噪声不为高斯分布时,ML一般也没有简洁的解析表达式,可能仍然使用最小二乘准则LS,最然性能比会ML差
总之,最小二乘准则LS是应用最广的最优化准则
[最大似然准则ML 到 最小二乘准则LS的推导]
模型为: Y = H { s ( X ) } + n \boldsymbol{Y}=H\{\boldsymbol{s}(\boldsymbol{X})\}+\boldsymbol{n} Y=H{s(X)}+n假设噪声 n ∼ N ( 0 , σ 2 ) \boldsymbol{n}\sim N(0,\sigma^2) n∼N(0,σ2),则已知参数 X \boldsymbol X X后,观测信号 y ∼ N ( H { s ( X ) } , σ 2 ) \boldsymbol y\sim N(H\{s(\boldsymbol{X})\} ,\sigma^2) y∼N(H{s(X)},σ2),即条件概率 p Y ∣ X ( Y ∣ X ) = ( 1 2 π σ ) N e − ∣ Y − H { s ( X ) } ∣ 2 / 2 σ 2 p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X})=\left(\frac{1}{\sqrt{2 \pi} \sigma}\right)^{N} \mathrm{e}^{-|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} / 2 \sigma^{2}} pY∣X(Y∣X)=(2πσ1)Ne−∣Y−H{s(X)}∣2/2σ2忽略系数,定义似然函数 Λ ( X ) \Lambda(\boldsymbol{X}) Λ(X)为 Λ ( X ) = exp { − ∣ Y − H { s ( X ) } ∣ 2 / 2 σ 2 } \Lambda(\boldsymbol{X})=\exp \left\{-|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} / 2 \sigma^{2}\right\} Λ(X)=exp{−∣Y−H{s(X)}∣2/2σ2}那么,最大似然准则ML要保证估计出的 X ^ \hat{\boldsymbol X} X^使得 p Y ∣ X ( Y ∣ X ) p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X}) pY∣X(Y∣X)最大,等价于使得似然函数 Λ ( X ) \Lambda(\boldsymbol{X}) Λ(X)最大,又等价于使得损失函数 L ( X ) = ∣ Y − H { s ( X ) } ∣ 2 L(\boldsymbol{X})=|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} L(X)=∣Y−H{s(X)}∣2最小,这就是最小二乘准则: X ^ = arg max X L ( X ) = arg max X ∣ Y − H { s ( X ) } ∣ 2 \hat{\boldsymbol{X}} =\operatorname{arg} \max _{\boldsymbol{X}}L(\boldsymbol{X})=\operatorname{arg} \max _{\boldsymbol{X}}|\boldsymbol{Y}-H\{s(\boldsymbol{X})\}|^{2} X^=argXmaxL(X)=argXmax∣Y−H{s(X)}∣2
最小距离准则
再进一步,在QAM中,星座点
c
∈
C
c\in C
c∈C位于复平面上,记为复数
I
n
I_n
In
若接收信号经过匹配滤波器和采样后,得到符号
Y
n
Y_n
Yn,且信道噪声为高斯的,那么LS准则写为
I
^
n
=
arg
min
c
∈
C
∣
Y
n
−
c
∣
2
\hat{I}_{n}=\arg \min _{c \in C}\left|Y_{n}-c\right|^{2}
I^n=argc∈Cmin∣Yn−c∣2
在复平面上理解,这就是要使译码结果和接收符号的欧式距离最小,即最小距离准则
扩展:从平均错误译码概率的角度看MAP和ML
实际上,选取译码规则的原则是:确保译码正确的可能性最大,或者使平均错误译码概率最小
平均错误译码概率的推导
假设收到 s s s种可能码字之一的 y j y_j yj,我们通过译码规则将其译码为 F ( y j ) = x ∗ F(y_j)=x^* F(yj)=x∗, x ∗ x^* x∗是发射的所有可能码字中的一个
- 发射的码字就是 x ∗ x^* x∗,则译码正确(译码得到了发出的码字);
- 发射的码字不是 x ∗ x^* x∗,则译码错误;
收到一个码字 y j y_j yj,错误译码的概率为 p ( e r r o r ∣ y j ) = 1 − p [ F ( y j ) ∣ y j ] = 1 − p ( x ∗ ∣ y j ) p(error|y_j)=1-p[F(y_j)|y_j]=1-p(x^*|y_j) p(error∣yj)=1−p[F(yj)∣yj]=1−p(x∗∣yj)
对所有可能的接收码字
y
j
y_j
yj取期望,则平均错误译码概率为:
P
E
=
∑
j
=
1
s
p
(
y
j
)
p
(
e
r
r
o
r
∣
y
j
)
=
1
−
∑
j
=
1
s
p
(
y
j
)
p
(
x
∗
∣
y
j
)
P_E=\sum_{j=1}^{s}p(y_j)p(error|y_j)=1-\sum_{j=1}^{s}p(y_j)p(x^*|y_j)
PE=j=1∑sp(yj)p(error∣yj)=1−j=1∑sp(yj)p(x∗∣yj)
MAP和ML的目标都是选取译码规则
F
(
y
j
)
F(y_j)
F(yj),使得错误概率
P
E
P_E
PE最小化;
也就是使正确概率
∑
j
=
1
s
p
(
y
j
)
p
(
x
∗
∣
y
j
)
=
∑
j
=
1
s
p
(
x
∗
y
j
)
\sum_{j=1}^{s}p(y_j)p(x^*|y_j)=\sum_{j=1}^{s}p(x^*y_j)
∑j=1sp(yj)p(x∗∣yj)=∑j=1sp(x∗yj)最大化;
但对于每个 y j y_j yj,MAP和ML使得 p ( x ∗ y j ) p(x^*y_j) p(x∗yj)最大化的具体思路不同:
- MAP是将 p ( x ∗ y j ) p(x^*y_j) p(x∗yj)最大化等价为:对于每个 y j y_j yj,选择译码结果 x ∗ x^* x∗,使得 p ( x ∗ ∣ y j ) p(x^*|y_j) p(x∗∣yj)最大化(两者只是相差归一化倍数 p ( y j ) p(y_j) p(yj))
平均错误译码概率 P E = 1 − ∑ j = 1 s p ( x ∗ y j ) = 1 − ∑ j = 1 s p ( y j ) p ( x ∗ ∣ y j ) P_E=1-\sum_{j=1}^{s}p(x^*y_j)=1-\sum_{j=1}^{s}p(y_j)p(x^*|y_j) PE=1−∑j=1sp(x∗yj)=1−∑j=1sp(yj)p(x∗∣yj)
若译码结果为 F ( y j ) = x ∗ F(y_j)=x^* F(yj)=x∗,为了保证收到 y j y_j yj的条件下发出符号为 x ∗ x^* x∗的概率最大
x ∗ x^* x∗应该满足:
p ( x ∗ ∣ y j ) ≥ p ( x i ∣ y j ) , 其中 x i ≠ x ∗ p(x^*|y_j)\geq p(x_i|y_j),其中x_i\neq x^* p(x∗∣yj)≥p(xi∣yj),其中xi=x∗
具体操作:在条件概率矩阵 F X ∣ Y F_{X|Y} FX∣Y(或联合概率矩阵 F X Y F_{XY} FXY)的每一列中(对应一个 y j y_j yj),选择概率最大项对应的 x i x_i xi作为译码输出
- ML是将
p
(
x
∗
y
j
)
p(x^*y_j)
p(x∗yj)最大化等价为:对于每个
y
j
y_j
yj,选择译码结果
x
∗
x^*
x∗,使得
p
(
x
∗
)
p
(
y
j
∣
x
∗
)
p(x^*)p(y_j|x^*)
p(x∗)p(yj∣x∗)最大化
⇒ \Rightarrow ⇒当 x i x_i xi等概时进一步简化为使 p ( y j ∣ x ∗ ) p(y_j|x^*) p(yj∣x∗)最大化
平均错误译码概率 P E = 1 − ∑ j = 1 s p ( x ∗ y j ) = 1 − ∑ j = 1 s p ( x ∗ ) p ( y j ∣ x ∗ ) P_E=1-\sum_{j=1}^{s}p(x^*y_j)=1-\sum_{j=1}^{s}p(x^*)p(y_j|x^*) PE=1−∑j=1sp(x∗yj)=1−∑j=1sp(x∗)p(yj∣x∗)
若译码结果为 F ( y j ) = x ∗ F(y_j)=x^* F(yj)=x∗,为了保证发射 x ∗ x^* x∗并且收到 y j y_j yj的概率最大
x ∗ x^* x∗应该满足:
p ( x ∗ ) p ( y j ∣ x ∗ ) ≥ p ( x i ) p ( y j ∣ x i ) , 其中 x i ≠ x ∗ p(x^*)p(y_j|x^*)\geq p(x_i)p(y_j|x_i),其中x_i\neq x^* p(x∗)p(yj∣x∗)≥p(xi)p(yj∣xi),其中xi=x∗
当发射符号 x i x_i xi等概率出现时,上式简化为:
p ( y j ∣ x ∗ ) ≥ p ( y j ∣ x i ) , 其中 x i , x ∗ ∈ 符号集 X 且 x i ≠ x ∗ p(y_j|x^*)\geq p(y_j|x_i),其中x_i,x^*\in 符号集X且x_i\neq x^* p(yj∣x∗)≥p(yj∣xi),其中xi,x∗∈符号集X且xi=x∗
(注意,后一个简化后的形式才是我们上面所说的“真正的”ML准则)
具体操作:在联合概率矩阵 F X Y F_{XY} FXY(或 x i x_i xi等概时,在转移概率矩阵 F Y ∣ X F_{Y|X} FY∣X)的每一列中(对应一个 y j y_j yj),选择概率最大项对应的 x i x_i xi作为译码输出
总结
- 实际应用中,如果给出了完整的分布信息 F X Y F_{XY} FXY或 F X ∣ Y F_{X|Y} FX∣Y,MAP准则是最通用的方法,因为MAP的 p ( x ∗ ∣ y j ) p(x^*|y_j) p(x∗∣yj)最大化,等价于 p ( x ∗ y j ) p(x^*y_j) p(x∗yj)最大化
- 然而,大部分情况下仅知道转移概率矩阵 F Y ∣ X F_{Y|X} FY∣X,则使用ML准则更方便,但前提是假定发射符号等概,此时ML的 p ( y j ∣ x ∗ ) p(y_j|x^*) p(yj∣x∗)最大化,才能等价于 p ( x ∗ y j ) p(x^*y_j) p(x∗yj)最大化
- 进一步的,当噪声为高斯分布,ML等价于LS,并且在非高斯分布下也常采用LS,这是应用最广泛的准则
Turbo码译码的理论基础,就是MAP准则,它将接收信号分为多个部分,从一部分接收信号中获取的后验概率,可以作为另一部分的先验概率,各个部分互相提供先验概率信息,最终完成迭代译码
需要注意,具体应用这些译码准则时,带入公式时需要注意变量 X X X和 Y Y Y的取值是否连续
- 若 X X X和 Y Y Y为取值连续的变量,例如做ML估计,列出式子 X ^ = arg max X p Y ∣ X ( Y ∣ X ) \hat{\boldsymbol{X}} =\arg \max _{\boldsymbol{X}} p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X}) X^=argmaxXpY∣X(Y∣X)后,式中 p Y ∣ X ( Y ∣ X ) p_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X}) pY∣X(Y∣X)是一个概率密度,为了使之最大,应该对 X \boldsymbol{X} X求导数;
- 若若 X X X和 Y Y Y为取值离散的变量,整体表达式形式不变,但是其中概率密度要换成概率值 X ^ = arg max X P Y ∣ X ( Y ∣ X ) \hat{\boldsymbol{X}} =\arg \max _{\boldsymbol{X}} P_{\boldsymbol{Y} \mid \boldsymbol{X}}(\boldsymbol{Y} \mid \boldsymbol{X}) X^=argmaxXPY∣X(Y∣X),并且求最大值无法求导,而是需要穷举 X \boldsymbol{X} X求最大值