深入浅出GAMP算法（中）： GAMP

最新推荐文章于 2024-05-06 14:21:20 发布

B417科研笔记

最新推荐文章于 2024-05-06 14:21:20 发布

阅读量6.5k

点赞数 14

分类专栏：通信中的常用数学文章标签：算法线性代数概率论

本文链接：https://blog.csdn.net/weixin_39274659/article/details/120488409

版权

通信中的常用数学专栏收录该内容

48 篇文章 482 订阅

订阅专栏

前言

在上一篇博客中我们简单介绍了消息传递算法的雏形。然而，当变量维度较大时，对每个标量进行逐个的消息计算需要不可能承担的复杂度。因此，通过一些近似来简化计算，则是 AMP (approximate message passing) 类算法的核心思想。这篇博客，我们将通过详细的数学推导，来展示 GAMP 算法是如何对消息传递进行近似的。

模型背景

在这里插入图片描述

我们旨在解决上图这样的问题，已知输入 $\mathbf{q}$ （先验信息），已知输出 $\mathbf{y}$ （后验信息)，已知变换矩阵 $\mathbf{A}$ ，反推出变量 $\mathbf{x}$ 。以AWGN信道举例：
$\mathbf{y}=\mathbf{z}+\mathbf{w}=\mathbf{A} \mathbf{x}+\mathbf{w}$
$\mathbf{y}$ 已知而我们试图反推出 $\mathbf{x}$ 。此时，如果 $\mathbf{x}$ 有一些先验分布信息，如稀疏分布，即 $\mathbf{x}$ 中只有少量元素非零，那么，便可以通过概率的方式，以GAMP算法进行求解。

推导

我们先以 MAP 版本的 GAMP为例。即最大化后验概率：
$\widehat{\mathbf{x}}^{\text {map }}:=\underset{\mathbf{x} \in \mathbb{R}^{n}}{\arg \max } F(\mathbf{x}, \mathbf{z}, \mathbf{q}, \mathbf{y}), \quad \widehat{\mathbf{z}}=\mathbf{A} \widehat{\mathbf{x}}$
其中，
$F(\mathbf{x}, \mathbf{z}, \mathbf{q}, \mathbf{y}):=\sum_{j=1}^{n} f_{\mathrm{in}}\left(x_{j}, q_{j}\right)+\sum_{i=1}^{m} f_{\text {out }}\left(z_{i}, y_{i}\right)，$
$f_\mathrm{in}$ 和 $f_\mathrm{out}$ 分别为：
$\begin{aligned} f_{\text {out }}(z, y) &:=\log p_{Y \mid Z}(y \mid z) \\ f_{\text {in }}(x, q) &:=\log p_{X \mid Q}(x \mid q) \end{aligned}$
因此 MAP 估计就是找出可能性最大（对应后验概率最大）的 $x$ 作为估计值。

在这里插入图片描述

传统的消息传递算法，在每次迭代中，实际要计算两个消息算子：
$\ x j f out ( z i , y i ) + ∑ r ≠ j Δ i ← r ( t , x r ) (1) \begin{aligned} {\Delta}_{i \rightarrow j}\left(t, x_{j}\right)=\mathrm{const} +\max _{\mathbf{x}\backslash x_j} f_{\text {out }}\left(z_{i}, y_{i}\right)+\sum_{r \neq j} \Delta_{i \leftarrow r}\left(t, x_{r}\right) \end{aligned}\tag{1}$
和
$\begin{aligned} {\Delta}_{i \leftarrow j}\left(t+1, x_{j}\right)=\mathrm{const} +f_{\mathrm{in}}\left(x_{j}, q_{j}\right)+\sum_{\ell \neq i} \Delta_{\ell \rightarrow j}\left(t, x_{j}\right) \end{aligned}\tag{2}$
简单理解(1)和(2)的意义： $i\rightarrow j$ ，代表的就是由于 $z_i=a_i\mathbf{x}$ 这一限制的存在，从而对 $x_j$ 进行的修正。 $j\rightarrow i$ 则是 $x_j$ 向 $i$ 节点传递当前自己根据除了 $z_i=a_i\mathbf{x}$ 这条限制以外的其他限制进行修正后的结果。这里是为了防止消息被重复累加。在第一篇博客中对消息传递算法有更详细的介绍。
接下来进行近似简化，我们先有如下一些将用到的定义：
$\begin{aligned} \widehat{x}_{j}(t) &:=\underset{x_{j}}{\arg \max } \Delta_{j}\left(t, x_{j}\right) \\ \widehat{x}_{i \leftarrow j}(t) &:=\underset{x_{j}}{\arg \max } \Delta_{i \leftarrow j}\left(t, x_{j}\right) \\ \frac{1}{\tau_{j}^{x}(t)} &:=-\left.\frac{\partial^{2}}{\partial x_{j}^{2}} \Delta_{j}\left(t, x_{j}\right)\right|_{x_{j}=\widehat{x}_{j}(t)} \\ \frac{1}{\tau_{i \leftarrow j}^{x}(t)} &:=-\left.\frac{\partial^{2}}{\partial x_{j}^{2}} \Delta_{i \leftarrow j}\left(t, x_{j}\right)\right|_{x_{j}=\widehat{x}_{i \leftarrow j}(t)} . \end{aligned}$
其中，
$\ x j F ( x , z , q , y ) , z ^ = A x ^ \Delta_{j}\left(x_{j}\right):=\max _{\mathbf{x} \backslash x_{j}} F(\mathbf{x}, \mathbf{z}, \mathbf{q}, \mathbf{y}), \quad \widehat{\mathbf{z}}=\mathbf{A} \widehat{\mathbf{x}}$
其中 $\ x j {\mathbf{x} \backslash x_{j}}$ 表示 $x_j$ 不变，优化 $\mathbf{x}$ 的其他元素们。因此 $\widehat{x}_{j}$ 事实上就对应于我们在消息传递过程中不断迭代得到的最大后验估计。因此在迭代中，我们有：
$\Delta_{j}\left(t+1, x_{j}\right)=f_{\mathrm{in}}\left(x_{j}, q_{j}\right)+\sum_{i} \Delta_{i \rightarrow j}\left(t, x_{j}\right)$
和(2)相比， $\Delta_{j}$ 就是考虑了所有节点的限制及先验信息，再给出的整体的一个 $x_j$ 的估计。
我们先对(2)进行近似：
将(2)在 $\widehat{x}_{i \leftarrow r}(t)$ 点进行二次泰勒展开，可以得到：
$\Delta_{i \leftarrow r}\left(t, x_{r}\right) \approx \Delta_{i \leftarrow r}\left(t, \widehat{x}_{i \leftarrow r}(t)\right)-\frac{1}{2 \tau_{r}^{x}(t)}\left(x_{r}-\widehat{x}_{i \leftarrow r}(t)\right)^{2} \tag{3}$
注意，这里的展开里我们忽略了泰勒展开的一次项，这是因为我们后续的推导中还会对 $x_r$ 进行一次求导，那么一次项便成了常数项，不再影响后续的优化推导，因此，在这里直接省略了。

将(3)代入(1)中，有：

$\begin{aligned} \Delta_{i \rightarrow j}\left(t, x_{j}\right) = \max _{z_{i}}\left[f_{\text {out }}\left(z_{i}, y_{i}\right)-\frac{1}{2 \tau_{i \rightarrow j}^{p}(t)}\left(z_{i}-\widehat{p}_{i \rightarrow j}(t)-a_{i j} x_{j}\right)^{2},\right] +\mathrm{const} \end{aligned}\tag{4}$

其中
$\begin{aligned} \widehat{p}_{i \rightarrow j}(t) &:=\sum_{r \neq j} a_{i r} \widehat{x}_{i \leftarrow r}(t) \quad\tau_{i \rightarrow j}^{p}(t) &:=\sum_{r \neq j}\left|a_{i r}\right|^{2} \tau_{r}^{x}(t) \end{aligned}$

推导(4)是一个以 $z_{i}=a_{i j} x_{j}+\sum_{r \neq j} a_{i r} x_{r}$ 为约束的优化问题，通过拉格朗日乘子法可以求得闭式解，推导出(4)。这里的详细步骤也不再展开。注意到：事实上通过观察 $\widehat{p}_{i \rightarrow j}$ 和 $\tau_{i \rightarrow j}$ 的形式我们可以发现，前者对应于 $z_i$ 的均值，而后者对应于 $z_i$ 的方差（各自少了一项）。

我们继续向下推导。定义：
$H\left(\widehat{p}, y, \tau^{p}\right):=\max _{z}\left[f_{\text {out }}(z, y)-\frac{1}{2 \tau^{p}}(z-\widehat{p})^{2}\right]$
那么(4)可以进一步写为：
$\Delta_{i \rightarrow j}\left(t, x_{j}\right) =H\left(\widehat{p}_{i \rightarrow j}(t)+a_{i j} x_{j}, y_{i}, \tau_{i \rightarrow j}^{p}(t)\right)+\text { const }\tag{5}$
这里必须提一嘴的是： $H$ 的这个形式，你想起了什么吗？没错，这就是高斯分布随机变量的概率密度函数的指数项——均值为 $\hat{p}$ ，方差为 $\tau_p$ 。与之对应，也可以发现事实上消息 $\Delta_{i \rightarrow j}\left(t, x_{j}\right)$ 就是找一个最大后验概率的 $x_j$ 。

然而我们的初衷是为了简化计算，而（5）中所需要用到的 $\hat{p}$ ，依然需要对多个标量进行求和。但是我们注意到，
如果继续定义： $\widehat{p}_{i}(t):=\sum_{j} a_{i j} \widehat{x}_{i \leftarrow j}(t)$ 和 $\tau_{i}^{p}(t)=\sum_{j}\left|a_{i j}\right|^{2} \tau_{j}^{x}(t)$ ，有：
$\begin{aligned} \widehat{p}_{i \rightarrow j}(t) &=\widehat{p}_{i}(t)-a_{i j} \widehat{x}_{i \leftarrow j}(t) \\ \tau_{i \rightarrow j}^{p}(t) &=\tau_{i}^{p}(t)-a_{i j}^{2} \tau_{j}^{x}(t) \end{aligned}$
如果矩阵 $A$ 中的所有元素 $a_{ij}$ 都服从同样的分布且已被归一化，我们接下来可以做以下近似：忽略所有 $O(a_{ij}^2)$ 项，那么：
(5)可以进一步写为：
$\Delta_{i \rightarrow j}\left(t, x_{j}\right) \approx H\left(\widehat{p}_{i}(t)+a_{i j}\left(x_{j}-\widehat{x}_{j}\right), y_{i}, \tau_{i}^{p}(t)\right)+\text { const }$
这里是因为我们忽略了 $O\left(a_{i j}^{2}\right)$ 级的项，因此有了 $\tau_{i \rightarrow j}^{p}(t)=\tau_{i}^{p}(t)$ 的效果。也可以注意到， (5)中的 $\widehat{x}_{i \leftarrow j}$ 也变为了 $\widehat{x}_{j}$ , 同样也是用了这个近似。 这一近似在后续也将被持续用到。

许多人看到这里可能一头雾水了， GAMP在干嘛？一顿操作，到底想干什么？是的，其实他的核心就在于，把涉及到 $\widehat{p}_{i\rightarrow j}(t)$ 和 $\widehat{\tau}_{i\rightarrow j}(t)$ 的计算，通通替换为用 $\hat{p}_{i}^{p}(t)$ 和 $\tau_{i}^{p}(t)$ 替代。因为后者的计算，在后续可以看到，能被高度简化。如果看GAMP的算法框图的也可以发现，尽管在推导的过程中，由于是从原始的消息传递算法而来，有许多 $i\rightarrow j$ 这样的项，然而在最后的算法中，是没有的。

继续下面的推导。我们希望进一步的近似也是利用了泰勒展开，因此我们需要定义一阶导和二阶导：
$\begin{aligned} \widehat{s}_{i}(t) &=g_{\text {out }}\left(t, \widehat{p}_{i}(t), y_{i}, \tau_{i}^{p}(t)\right) \\ \tau_{i}^{s}(t) &=-\frac{\partial}{\partial \widehat{p}} g_{\text {out }}\left(t, \widehat{p}_{i}(t), y_{i}, \tau_{i}^{p}(t)\right) \end{aligned}\tag{6}$
其中， $g_{\text {out }}\left(\widehat{p}, y, \tau^{p}\right):=\frac{\partial}{\partial \widehat{p}} H\left(\widehat{p}, y, \tau^{p}\right)$
那么根据 $H$ 函数的定义，这里 $g_\mathrm{out}$ 可化简为下式：
$g_{\text {out }}\left(\widehat{p}, y, \tau^{p}\right):=\frac{1}{\tau^{p}}\left(\widehat{z}^{0}-\widehat{p}\right)$
其中 $\widehat{z}^{0}:=\underset{z}{\arg \max } F_{\text {out }}\left(z, \widehat{p}, y, \tau^{p}\right)$ 和 $F_{\text {out }}\left(z, \widehat{p}, y, \tau^{p}\right):=f_{\text {out }}(z, y)-\frac{1}{2 \tau^{p}}(z-\widehat{p})^{2}$ 。进一步的，二阶导可以求得：
$-\frac{\partial}{\partial \widehat{p}} g_{\text {out }}\left(\widehat{p}, y, \tau^{p}\right)=\frac{-f_{\text {out }}^{\prime \prime}\left(\widehat{z}^{0}, y\right)}{1-\tau^{p} f_{\text {out }}^{\prime \prime}\left(\widehat{z}^{0}, y\right)}$
这里很明确了， (6)中的 $\hat{s}_i(t)$ 和 $\tau_{i}^{s}(t)$ 分别代表了 $H$ 函数在 $\widehat{p}_i(t)$ 的一阶导和二阶导，那么继续泰勒展开：

$\begin{aligned} \Delta_{i \rightarrow j}\left(t, x_{j}\right) &\approx \mathrm{const} +s_{i}(t) a_{i j}\left(x_{j}-\widehat{x}_{j}(t)\right)-\frac{\tau_{i}^{s}(t)}{2} a_{i j}^{2}\left(x_{j}-\widehat{x}_{j}(t)\right)^{2} \\ &= \operatorname{const} + \left[s_{i}(t) a_{i j}+a_{i j}^{2} \tau_{i}^{s}(t) \widehat{x}_{j}(t)\right] x_{j} -\frac{\tau_{i}^{s}(t)}{2} a_{i j}^{2} x_{j}^{2} \end{aligned}\tag{7}$
可以看到，此时 $\Delta_{i \rightarrow j}\left(t, x_{j}\right)$ 中已经没有任何 $i\rightarrow j$ 这样的项了。但是 $\hat{p}$ 里其实还有，不过这个我们后续再说。接下来我们对另一个方向的消息传递进行分析：
此时，把(7)代入到(2)中， (2)也可以被近似为：
$\begin{aligned} \Delta_{i \leftarrow j}\left(t+1, x_{j}\right) \approx \mathrm{const} +f_{\mathrm{in}}\left(x_{j}, q_{j}\right)-\frac{1}{2 \tau_{i \leftarrow j}^{r}(t)}\left(\widehat{r}_{i \leftarrow j}(t)-x_{j}\right)^{2} \end{aligned}$
其中，
$\frac{1}{\tau_{i \leftarrow j}^{r}(t)}=\sum_{\ell \neq i} a_{\ell j}^{2} \tau_{\ell}^{s}(t)$
和
$\begin{aligned} \widehat{r}_{i \leftarrow j}(t) &=\tau_{i \leftarrow j}^{r}(t) \sum_{\ell \neq i}\left[s_{\ell}(t) a_{\ell j}+a_{\ell j}^{2} \tau_{\ell}^{s}(t) \widehat{x}_{j}(t)\right] \\ &=\widehat{x}_{j}(t)+\tau_{i \leftarrow j}^{r}(t) \sum s_{\ell}(t) a_{\ell j} \end{aligned}$
注意，这里算法又颇具技巧性地，加入了常数项， 从而把右边的形式再一次写成了高斯分布的概率密度函数的次方项！这无疑是故意而为之的。

这时候，如果我们定义：
$g_{\text {in }}\left(\widehat{r}, q, \tau^{r}\right):=\underset{x}{\arg \max }f_{\text {in }}(x, q)-\frac{1}{2 \tau^{r}}(\widehat{r}-x)^{2}$
那么有：
$\widehat{x}_{i \leftarrow j}(t+1) \approx g_{\text {in }}\left(\widehat{r}_{i \leftarrow j}(t), q_{j}, \tau_{i \leftarrow j}^{r}(t)\right)\tag{8}$
**注意！这里我们第一次出现了 $t + 1$ 次迭代中的项！我们已经成功地完成了一次消息传递但，还需要具体的简化，即去除所有 $i\rightarrow j$ 相关项。
再定义：
$\begin{aligned} &\tau_{j}^{r}(t)=\left[\sum_{i}\left|a_{i j}\right|^{2} \tau_{i}^{s}(t)\right]^{-1} \\ &\widehat{r}_{j}(t)=\widehat{x}_{j}(t)+\tau_{j}^{r}(t) \sum_{i} a_{i j} \widehat{s}_{i}(t) \end{aligned}$
又可以有下列近似关系：
$\begin{aligned} \tau_{i \leftarrow j}^{r}(t) & \approx \tau_{j}^{r}(t) \\ \widehat{r}_{i \leftarrow j}(t) & \approx \widehat{x}_{j}(t)+\tau_{j}^{r}(t) \sum_{\ell \neq i} s_{\ell}(t) a_{\ell j} \\ &=\widehat{r}_{j}(t)-\tau_{j}^{r}(t) a_{i j} s_{i}(t) \end{aligned}$
这里同样是忽略了 $O\left(a_{i j}^{2}\right)$ 级的项。利用这一近似，（8）可以近似为：
$\begin{aligned} &\widehat{x}_{i \leftarrow j}(t+1) \\ &\quad \stackrel{(a)}{\approx} g_{i n}\left(\widehat{r}_{j}(t)-a_{i j} s_{i}(t) \tau_{j}^{r}(t), q_{j}, \tau_{j}^{T}(t)\right) \\ &\stackrel{(b)}{\approx} \widehat{x}_{j}(t+1)-a_{i j} s_{j}(t) D_{j}(t+1) \end{aligned}\tag{9}$
这里(a)就是直接代入了近似关系，而(b)则是对进行了泰勒一次展开：
$\begin{aligned} \widehat{x}_{j}(t+1) &:=g_{\text {in }}\left(\widehat{r}_{j}(t), q_{j}, \tau_{j}^{r}(t)\right) \\ D_{j}(t+1) &:=\tau_{j}^{r}(t) \frac{\partial}{\partial \widehat{r}} g_{\text {in }}\left(\widehat{r}_{j}(t), q_{j}, \tau_{j}^{r}(t)\right) \end{aligned}$
注意到又有：
$\begin{aligned} &D_{j}(t+1) \stackrel{(a)}{\approx} \tau_{j}^{r}(t) \frac{\partial}{\partial \widehat{r}}\left(\Gamma f_{\mathrm{in}}\left(\cdot, q_{j}\right)\right)\left(\widehat{r}_{j}(t), \tau_{j}^{r}(t)\right) \\ &\stackrel{(b)}{=} \frac{\tau_{j}^{T}(t)}{1-\tau_{j}^{r}(t) f_{i n}^{\prime \prime}\left(\widehat{x}_{j}(t+1), q_{j}\right)} \\ &\stackrel{(c)}{\approx}\left[-\frac{\partial^{2}}{\partial x_{j}^{2}} \Delta_{i \leftarrow j}\left(t+1, \widehat{x}_{j}(t+1)\right)\right]^{-1} \\ &\stackrel{(d)}{\approx} \tau_{j}^{x}(t+1) \end{aligned}$
这里具体的推导就不展开了。注意到，根据(9)我们其实已经得到了这一次迭代的结果 $\widehat{x}_{j}(t+1)$ 。并且，将上式代入(9)和 $\widehat{p}_{i}(t)$ 的定义中，我们有：
$\widehat{p}_{i}(t)=\sum_{j} a_{i j} \widehat{x}_{j}(t)-\tau_{i}^{p}(t) \widehat{s}_{i}(t-1)$

也就是说，整个算法运行中，不再涉及任何 $i\rightarrow j$ 项的操作了！

至此，推导结束。
总结以下几个点：

整个GAMP推导的核心任务就是尽可能地把所有操作变为关于 $x_j$ , $p_i$ 这样的计算，而不涉及 $x_{i\leftarrow j}$ ， $p_{i\leftarrow j}$ ，从而大幅地降低计算复杂度。
使用的方法就是不断假设整个矩阵 $\mathbf{A}$ 的元素服从同分布的高斯，从而可以进行不断的泰勒展开近似。

最终的算法流程可以被简化为：
在这里插入图片描述
我们可以将算法流程整理一下：

初始化
计算 $\tau_i^p(t)$ 和 $\hat{p}_i(t)$ , $\hat{s}_i$ 和 $\tau_i^s(t)$ , 从而计算 $\Delta_{i \rightarrow j}\left(t, x_{j}\right)$ ，在GAMP算法里最后体现在对 $\hat{r}_j$ 的计算中。
计算 $\tau_j^r$ 和 $\hat{r}_j$ ，用于最后对 $\hat{x}_j$ 的计算。

B417科研笔记

关注

14
点赞
踩
60

收藏

觉得还不错? 一键收藏
打赏
5
评论
深入浅出GAMP算法（中）： GAMP

前言在上一篇博客中我们简单介绍了消息传递算法的雏形。然而，当变量维度较大时，对每个标量进行逐个的消息计算需要不可能承担的复杂度。因此，通过一些近似来简化计算，则是 AMP (approximate message passing) 类算法的核心思想。这篇博客，我们将通过详细的数学推导，来展示 GAMP 算法是如何对消息传递进行近似的。模型背景我们旨在解决上图这样的问题，已知输入q\mathbf{q}q （先验信息），已知输出 y\mathbf{y}y（后验信息)，已知变换矩阵A\
复制链接

扫一扫