VAMP由浅入深（Part-1：由消息传递直接推导）

Turbo-shengsong

已于 2022-02-23 21:03:43 修改

阅读量2.7k

点赞数 6

分类专栏：消息传递文章标签：概率论矩阵线性代数算法

于 2022-02-22 11:41:58 首次发布

本文链接：https://blog.csdn.net/weixin_43413559/article/details/123064831

版权

消息传递专栏收录该内容

7 篇文章 28 订阅

订阅专栏

文章目录

前言
问题模型
AMP与贝叶斯推理的简要介绍
基于期望传播的VAMP推导

Vector Approximate Message Passing, VAMP

前言

事实上，到今天为止，我才知道AMP/VAMP的推导方式并不局限，而且多种多样。此篇博客所介绍的VAMP推导方法基于期望传播算法（Expecation Propagation, EP），相对来说较为简单，也便于理解。

问题模型

考虑要从观测信号
$\boldsymbol{y}=\boldsymbol{Ax}^0+\boldsymbol{w}\in \mathbb{R} ^M \tag{1}$
中恢复向量 $\boldsymbol{x}^0\in \mathbb{R} ^N$ ，其中， $\boldsymbol{A} \in \mathbb{R}^{M \times N}$ 已知。对于该问题，主要有以下两种解决思路：
思路1（优化方向）：
$\hat {\pmb x} = \mathrm{arg} \underset{\boldsymbol{x}\in \mathbb{R} ^{\mathrm{N}}}{\min}\frac{1}{2}\left\| \boldsymbol{y}-\boldsymbol{Ax} \right\| _{2}^{2}+f\left( \boldsymbol{x} \right) \tag{2}$
式(2)中的 $f(\pmb x)$ 的选取是为了提升估计 $\hat {\pmb x}$ 的结构性，比如选取 $f(\pmb x)=\lambda {\Vert {\pmb x} \Vert}_1$ 是考虑到 $\boldsymbol{x}^0$ 的稀疏性。
思路2（贝叶斯方向）：
MAP估计
$\text{MAP: } \ \hat {\pmb x}_{\text{MAP}}=\mathrm{arg} \underset{\boldsymbol x} {\max} p(\pmb x | \pmb y) = \mathrm{arg} \underset{\boldsymbol x} {\max} p(\pmb y | \pmb x) p(\pmb x) \tag{3}$

MMSE估计
$\text{MMSE: } \ \hat {\pmb x}_{\text{MMSE}}=\mathrm{arg} \underset{\boldsymbol{\tilde{x}}} {\min} \int {\Vert \boldsymbol x - \boldsymbol{\tilde{x}} \Vert}^2p(\pmb x | \pmb y) \text{d} \pmb x = \mathbb E[\pmb x | \pmb y] \tag{4}$

后验概率密度函数
${\{p(x_n|\pmb y)\}}^N_{n=1} \tag{5}$

优化和贝叶斯的共通性：若式（1）中观测信号被高斯噪声破坏，即 $\pmb w \sim \mathcal N(\pmb 0, {\gamma_{\omega}}^{-1} \pmb I)$ ，那么当MAP准则中的先验概率 $p(\pmb x)$ 与优化中的正则项 $f(\pmb x)$ 满足
$p(\pmb x) \propto \exp[-\gamma_{\omega} f(\pmb x)] \tag{6}$
时，认为式（2），即该优化方法与MAP等效。

AMP与贝叶斯推理的简要介绍

若 $\pmb x$ 的先验分布满足元素之间独立同分布（i.i.d.），那么
$p(\pmb x) = \prod_{n=1}^N p(x_n) \tag{7}$
对于AMP算法所使用的滤波函数，这里考虑依据以下两个准则分别建立：
准则1（MAP）：滤波函数为（ $k$ 表示迭代次数， $\gamma _k$ 表示AMP状态演化时的噪声精度）
$\mathrm{g}_1\left( r_{kn},\gamma _k \right) =\mathrm{arg} \underset{x_n\in \mathbb{R}}{\min}\left[ \frac{\gamma _k}{2}\left| x_n-r_{kn} \right|^2-\ln p\left( x_n \right) \right] \tag{8}$
准则2（MMSE）：滤波函数为
$\mathrm{g}_1\left(r_{kn},\gamma _k \right)=\mathbb E_{p(x_n|r_{kn},\gamma _k)} \left [ x_n|r_{kn},\gamma _k \right ] \tag{9}$
其中，
$p(x_n|r_{kn},\gamma _k) \propto \exp \left [-\frac{\gamma _k}{2}\left| x_n-r_{kn} \right|^2+\ln p\left( x_n \right) \right ] \tag{10}$
事实上，式（10）中的 $p(x_n|r_{kn},\gamma _k)$ 可以被看作是AMP在第 $k$ 次迭代下的后验概率 $p(x_n|\pmb y)$ 。另外，对于式（9）所描述的MMSE滤波函数 $\mathrm{g}_1\left(r_{kn},\gamma _k \right)$ 关于 $r_{kn}$ 的一阶导为：
$\mathrm{g}^{\prime}_1\left(r_{kn},\gamma _k \right) = \gamma_k \text{var} [ x_n | r_{kn},\gamma _k ] \tag{11}$
AMP的算法描述

AMP算法中的第7行，“Select $\gamma_{k+1}$ ”建议使用
$\gamma_{k+1} = \frac{M}{{\Vert \pmb v_k \Vert}^2} \tag{12}$
其中 $\pmb v_k$ 是第 $k$ 次迭代线性估计（第5行）的残差。

基于期望传播的VAMP推导

我们将联合概率密度函数做分解：
$p(\pmb y, \pmb x) = p (\pmb x) \mathcal N(\pmb y; \pmb {Ax}, {\gamma_{\omega}}^{-1}\pmb I) \tag{13}$
进一步引入Dirac符号，把 $\pmb x$ 拆分为两个等价的向量 $\pmb x_1$ 和 $\pmb x_2$ ，则式（13）可分解为
$p(\pmb y, \pmb x_1, \pmb x_2) = p (\pmb x_1) \delta(\pmb x_1 - \pmb x_2) \mathcal N(\pmb y; \pmb {A} \pmb x_2, {\gamma_{\omega}}^{-1}\pmb I) \tag{13}$
式（13）分解结果所对应的因子图为

图1：VAMP推导所使用的因子图

可以看出，该因子图的变量节点为向量形式而非标量。这里首先定义一下三个消息传递规则：

规则1（估计信念）：在变量节点 $\pmb x$ 上的估计信念（Approximate Beliefs） $b_{app}(\pmb x) = \mathcal N(\pmb x; \hat {\pmb x},\eta^{-1} \pmb I)$ ，其中
$\begin{cases} \hat {\pmb x}=\mathbb E_{b_{sp}}[\pmb x] \\ \eta^{-1} = <\text{diag}(\text{Cov}_{b_{sp}}[\pmb x])> \\ \end{cases} \tag{14}$
其中， $b_{sp}(\pmb x)$ 表示所有到变量节点 $\pmb x$ 的信念之积，即 $b_{sp}(\pmb x) \propto \prod_{i} \mu_{f_i \rightarrow \boldsymbol x}(\pmb x)$ 。
规则2（变量节点到因子节点的消息）：本质上与经典的和积算法一致，假设消息从变量节点 $\boldsymbol x$ 传递到相邻的一个因子节点 $f_i$ ，那么
$\mu_{\boldsymbol x \rightarrow f_i}(\boldsymbol x) \propto \frac{b_{app}(\pmb x)}{\mu_{f_i \rightarrow \boldsymbol x}(\pmb x)} \tag{15}$
规则3（因子节点到变量节点的消息）：本质上与经典的和积算法一致，假设消息从因子节点 $f$ 传递到相邻的一个变量节点 $\boldsymbol x_i$ ，那么
$\mu_{f \rightarrow \boldsymbol x_i} (\boldsymbol x_i) \propto \int f(\boldsymbol x_i,{\{ \boldsymbol x_j \}}_{j \neq i}) \prod_{j \neq i} \mu_{\boldsymbol x_j \rightarrow f} \text{d} \boldsymbol x_j \tag{16}$

在下面的推导中，我们使用索引 $k$ 表示第 $k$ 次迭代，用 $n$ 表示向量的第 $n$ 个元素。

第一步（初始化）： $k = 0$ 时，初始化消息 $\mu_{\delta \rightarrow \boldsymbol x_1}(\boldsymbol x_1) =\mathcal N(\boldsymbol x_1; \boldsymbol r_{10}, {\gamma_{10}}^{-1} \boldsymbol I)$ ，以下几个步骤交替迭代（for $k=0,1,\ldots$ ）

第二步（ $\boldsymbol x_1$ 处的信念估计）：变量节点 $\boldsymbol x_1$ 在和积算法操作下的真实信念为 $b_{sp}(\boldsymbol x_1) \propto p(\boldsymbol x_1) \mathcal N(\boldsymbol x_1; \boldsymbol r_{1k}, {\gamma_{1k}}^{-1} \boldsymbol I)$ ，其均值为 $\hat {\boldsymbol x}_{1k} =\mathbb E[\boldsymbol x_1 | b_{sp}(\boldsymbol x_1)]$ ，”平均方差“为 $\eta_{1k}^{-1}=<\text{diag}(\text{Cov}[\boldsymbol x_1|b_{sp}(\boldsymbol x_1)])>$ （”平均方差“这个概念只是为了好叙述，实质上表示的是该分布协方差矩阵对角元素的均值）。进一步使用估计信念 $b_{app}(\boldsymbol x_1)=\mathcal N(\boldsymbol x_1;\hat {\boldsymbol x}_{1k},\eta_{1k}^{-1} \pmb I)$ 来近似，联合式（9）(滤波函数使用MMSE准则)，可以写出
$\begin{cases} [\hat {\boldsymbol x}_{1k}]_n =\mathrm{g}_1\left(r_{kn},\gamma _k \right) \\ \eta_{1k}^{-1} = {\gamma_{1k}}^{-1}{\mathrm{g}_1}^{\prime}\left(r_{kn},\gamma _k \right) \\ \end{cases} \tag{17}$
第三步（消息传递）：从变量节点 $\boldsymbol x_1$ 到因子节点 $\delta$ 的消息为
$\mu_{\boldsymbol x_1 \rightarrow \delta}(\boldsymbol x_1) \propto \frac{\mathcal N(\boldsymbol x_1;\hat {\boldsymbol x}_{1k},\eta_{1k}^{-1} \pmb I)}{\mathcal N(\boldsymbol x_1; \boldsymbol r_{1k}, {\gamma_{1k}}^{-1} \boldsymbol I)} \tag{18}$
又因为
$\frac{\mathcal N(\boldsymbol x; \hat{\boldsymbol x},\eta^{-1}\pmb I)}{\mathcal N(\boldsymbol x; \boldsymbol r,\gamma^{-1}\pmb I)} \propto \mathcal N(\boldsymbol x; (\hat {\boldsymbol x} \eta - \boldsymbol r \gamma)/(\eta-\gamma),({\eta - \gamma)}^{-1} \pmb I) \tag{19}$
将式(18)带入到式(19)中，得到 $\mu_{\boldsymbol x_1 \rightarrow \delta}(\boldsymbol x_1)=\mathcal N(\boldsymbol x_1;\boldsymbol r_{2k}, {\gamma_{2k}}^{-1} \pmb I)$ ，其中
$\begin{cases} \boldsymbol r_{2k}={(\hat {\boldsymbol x}_{1k} \eta_{1k} - \boldsymbol r_{1k} \gamma_{1k})} / {(\eta_{1k} - \gamma_{1k})} \\ \gamma_{2k}^{} = \eta_{1k} - \gamma_{1k}\\ \end{cases} \tag{20}$
进一步，从因子节点 $\delta$ 到变量节点 $\boldsymbol x_2$ 的消息为
$\mu_{\delta \rightarrow \boldsymbol x_2}(\boldsymbol x_2) = \int \delta(\boldsymbol x_1 - \boldsymbol x_2) \mu_{\boldsymbol x_1 \rightarrow \delta}(\boldsymbol x_1) \text{d} \boldsymbol x_1 = \mu_{\boldsymbol x_1 \rightarrow \delta}(\boldsymbol x_2) \tag{21}$
因此， $\mu_{\delta \rightarrow \boldsymbol x_2}(\boldsymbol x_2) = \mathcal N(\boldsymbol x_2;\boldsymbol r_{2k}, {\gamma_{2k}}^{-1} \pmb I)$
第四步（ $\boldsymbol x_2$ 处的信念估计）：类似第二步，在变量节点 $\boldsymbol x_2$ 处的真实信念为 $b_{sp}(\boldsymbol x_2) \propto \mathcal N(\boldsymbol x_2;\boldsymbol r_{2k}, {\gamma_{2k}}^{-1} \pmb I) \mathcal N(\boldsymbol y; \boldsymbol {Ax}_2, {\gamma_\omega}^{-1} \pmb I)$ ，其均值和方差分别为
$\begin{cases} \hat{\boldsymbol x}_{2k} = {\left( \gamma_\omega \boldsymbol A^T \boldsymbol A + \gamma_{2k} \pmb I \right)}^{-1} \left( \gamma_\omega \boldsymbol A^T \boldsymbol y + \gamma_{2k}+\boldsymbol r_{2k} \right) \\ \text{Cov}[\boldsymbol x_2|b_{sp}(\boldsymbol x_2)] = {\left( \gamma_\omega \boldsymbol A^T \boldsymbol A + \gamma_{2k} \pmb I \right)}^{-1}\\ \end{cases} \tag{22}$
依据规则一，令 $\boldsymbol x_2$ 处的估计信念为 $\mathcal N(\boldsymbol x_2;\hat {\boldsymbol x}_{2k}, {\eta}^{-1}_{2k} \pmb I)$ ，则 $\hat {\boldsymbol x}_{2k}$ 直接可得， ${\eta}^{-1}_{2k}=<\text{diag}(\text{Cov}[\boldsymbol x_2|b_{sp}(\boldsymbol x_2)])>$ 。
令
$\pmb {\mathrm{g}}_2 (\boldsymbol r_{2k},\gamma_{2k}) \coloneqq {\left( \gamma_\omega \boldsymbol A^T \boldsymbol A + \gamma_{2k} \pmb I \right)}^{-1} \left( \gamma_\omega \boldsymbol A^T \boldsymbol y + \gamma_{2k}+\boldsymbol r_{2k} \right) \tag{23}$
并且有
$<\pmb {\mathrm{g}}^{\prime}_2 (\boldsymbol r_{2k},\gamma_{2k})>=\frac{\gamma_{2k}}{N}\text{Tr}\left[ {\left( \gamma_\omega \boldsymbol A^T \boldsymbol A + \gamma_{2k} \pmb I \right)}^{-1} \right] \tag{24}$
类似于式（17），可以写出
$\begin{cases} \hat{\boldsymbol x}_{2k} =\pmb {\mathrm{g}}_2 (\boldsymbol r_{2k},\gamma_{2k}) \\ \eta_{2k}^{-1} = {\gamma_{2k}}^{-1}<\pmb {\mathrm{g}}^{\prime}_2 (\boldsymbol r_{2k},\gamma_{2k})> \\ \end{cases} \tag{25}$
第五步（消息传递）：类似于第三步，从变量节点 $\boldsymbol x_2$ 传递到因子节点 $\delta$ 的消息为
$\mu_{\boldsymbol x_2 \rightarrow \delta}(\boldsymbol x_2) \propto \frac{\mathcal N(\boldsymbol x_2;\hat {\boldsymbol x}_{2k},\eta_{2k}^{-1} \pmb I)}{\mathcal N(\boldsymbol x_2; \boldsymbol r_{2k}, {\gamma_{2k}}^{-1} \boldsymbol I)} \tag{26}$
令 $\mu_{\boldsymbol x_2 \rightarrow \delta}(\boldsymbol x_2)=\mathcal N(\boldsymbol x_2 ; \boldsymbol r_{1,k+1},\gamma^{-1}_{1,k+1} \pmb I)$ ，联合式（19）和式（26）可得
$\begin{cases} \boldsymbol r_{1,k+1}={(\hat {\boldsymbol x}_{2k} \eta_{2k} - \boldsymbol r_{2k} \gamma_{2k})} / {(\eta_{2k} - \gamma_{2k})} \\ \gamma_{1,k+1}^{} = \eta_{2k} - \gamma_{2k}\\ \end{cases} \tag{27}$
而从因子节点 $\delta$ 传递到变量节点 $\boldsymbol x_1$ 的消息与 $\mu_{\boldsymbol x_2 \rightarrow \delta}(\boldsymbol x_2)$ 是一致的。整个消息传递过程和信念估计操作依次迭代直至收敛。

总结：初始化因子节点 $\delta$ 到变量节点 $\boldsymbol x_1$ 的消息后，首先计算变量节点 $\boldsymbol x_1$ 的估计信念；然后将消息传递至 $\boldsymbol x_2$ ，类似地计算变量节点 $\boldsymbol x_2$ 的估计信念，这样依次迭代直至收敛。