深入理解AMP

最新推荐文章于 2025-02-20 14:17:46 发布

Turbo-shengsong

最新推荐文章于 2025-02-20 14:17:46 发布

阅读量6.9k

点赞数 11

分类专栏：消息传递文章标签：概率论矩阵线性代数

本文链接：https://blog.csdn.net/weixin_43413559/article/details/123273924

版权

消息传递专栏收录该内容

7 篇文章

订阅专栏

博客深入探讨了 AMP 算法中 Onsager 项的作用，如何在迭代过程中消除估计误差与感知矩阵的相关性。通过线性与非线性迭代公式分析，解释了状态演进过程，并利用泰勒展开直观理解误差演进。此外，还介绍了状态演进分析的基本思想，展示如何在高斯噪声背景下，随着迭代次数增加，误差的平方范数趋近于期望值与噪声方差的组合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题深入

注意到，一方面，对于AMP算法，基于信念传播的推导方式并不容易让人直观地去理解AMP的本质，比如为什么"Onsager"项可以在迭代过程中消除估计误差与感知矩阵的相关性？另一方面，AMP的状态演进分析过于复杂，但如果能直观地理解其演化过程，那么对AMP本质意义上的理解也会更上一层楼。我们接下来将基于AMP的迭代公式和Taylor展开，进行反向分析和理解。

“Onsager”项的理解

回顾AMP的迭代公式：

感知矩阵 $\boldsymbol A \in \mathbb R^{m \times n}$ ，且 $a_{ij} \sim \mathcal N(0, 1/m)$ ，AMP的迭代式为：
$\begin{aligned} \text{Linear: } \boldsymbol \nu^t &= \boldsymbol y - \boldsymbol A \hat {\boldsymbol x}^t + \underset{\text{Onsager term}}{\underbrace{\frac{n}{m} \boldsymbol \nu^{t-1} \text{div}\left( \eta(\boldsymbol r^{t-1}) \right )}} \\ \text{Non-linear: } \hat {\boldsymbol x}^{t+1} &=\eta \left ( \underset{\boldsymbol r^t}{\underbrace{ \hat {\boldsymbol x}^t+\boldsymbol A^T \boldsymbol \nu^t }} \right ) \end{aligned}$

我们首先考虑 $\boldsymbol A \hat {\boldsymbol x}^t$ 这一项，
$\begin{aligned} [\boldsymbol A \hat {\boldsymbol x}^t]_i &= \boldsymbol a^T_i \eta \left ( \hat {\boldsymbol x}^{t-1} + \sum_{l} \boldsymbol a_l \nu^{t-1}_l \right ) \text{ where } \boldsymbol a^T_i \text{ is the } i \textbf{-th row of } \boldsymbol A \\ &= \boldsymbol a^T_i \eta \left ( \underset{\boldsymbol r^{t-1}_i }{\underbrace{ \hat{\boldsymbol x}^{t-1} + \sum_{l \neq i} \boldsymbol a_l \nu^{t-1}_l }} +\boldsymbol a_i \nu^{t-1}_i \right ) \\ &= \boldsymbol a^T_i \left ( \eta (\boldsymbol r^{t-1}_i) + \frac{\partial \eta}{\partial \boldsymbol r} (\boldsymbol r^{t-1}_i) \boldsymbol a_i \nu^{t-1}_i + O(1/m) \right ) \textbf{Taylor expansion} \\ &= \boldsymbol a^T_i \eta (\boldsymbol r^{t-1}_i) + \nu^{t-1}_i \sum_{j} a^2_{ij} \eta^{\prime}(r^{t-1}_{ij}) + O(1/\sqrt m) \\ &= \boldsymbol a^T_i \eta (\boldsymbol r^{t-1}_i) +\frac{n}{m} \nu^{t-1}_i \underset{\text{div} \left( \eta(\boldsymbol r^{t-1}_i) \right ) }{\underbrace{ \frac{1}{n} \sum_{j} \eta^{\prime}(r^{t-1}_{ij})}} + O(1/\sqrt m) \end{aligned}$

因此，
$\boldsymbol A \hat {\boldsymbol x}^t = \boldsymbol A \eta (\boldsymbol r^{t-1}_i) + \frac{n}{m} \boldsymbol \nu^{t-1} \text{div} \left( \eta(\boldsymbol r^{t-1}_i) \right ) + O(1/\sqrt m)$

因此，进一步考虑 $\boldsymbol \nu^t$ 与 $\boldsymbol A$ 之间的相关性：
$\begin{aligned} \boldsymbol \nu^t &\overset{a}{=} \boldsymbol y - \boldsymbol A \hat {\boldsymbol x}^t + \underset{\text{Onsager term}}{\underbrace{\frac{n}{m} \boldsymbol \nu^{t-1} \text{div}\left( \eta(\boldsymbol r^{t-1}) \right )}} \\ &= \boldsymbol A \boldsymbol x_0 + \boldsymbol w - \left [ \boldsymbol A \eta (\boldsymbol r^{t-1}_i) + \frac{n}{m} \boldsymbol \nu^{t-1} \text{div} \left( \eta(\boldsymbol r^{t-1}_i) \right ) \right] + \underset{\text{Onsager term}}{\underbrace{\frac{n}{m} \boldsymbol \nu^{t-1} \text{div}\left( \eta(\boldsymbol r^{t-1}) \right )}} + O(1/\sqrt m) \\ &\overset{b}{\rightarrow} \boldsymbol A ( \boldsymbol x_0 - \underset{\hat{\boldsymbol x}^{t-1}=\eta(\boldsymbol r^{t-1}_i) }{\underbrace{(\boldsymbol x_0 + \boldsymbol \epsilon)}}) + \boldsymbol w \ \ \ \ \{\text{ where } \eta(\boldsymbol r^{t-1}_i) \rightarrow \hat{\boldsymbol x}^{t-1} \text{, define } \hat{\boldsymbol x}^{t-1} = \boldsymbol x_0 + \boldsymbol \epsilon \} \\ & \overset{}{=} - \boldsymbol A \boldsymbol \epsilon + \boldsymbol w \end{aligned}$

注意到，在(a)中， $\boldsymbol \nu^t$ 与矩阵 $\boldsymbol A$ 的相关性体现在 $\boldsymbol A \hat {\boldsymbol x}^t$ 与Onsager term这两项中，因为AMP线性迭代式的操作，Onsager项的相关性被消除了。剩余一项的相关性，如(b)可见，随着估计误差的减小，而逐渐消失。

另一方面，我们还要考虑 $\hat{\boldsymbol x}^{t}$ 与矩阵 $\boldsymbol A$ 的相关性，在AMP迭代的非线性估计中， $\hat{\boldsymbol x}^{t}$ 与矩阵 $\boldsymbol A$ 的相关性通过 $\boldsymbol A^T \boldsymbol v^t$ 建立，有
$\boldsymbol A^T \boldsymbol v^t = - \boldsymbol A^T \boldsymbol A \boldsymbol \epsilon + \boldsymbol A^T \boldsymbol w$

一般有假设 $\boldsymbol A$ 与 $\boldsymbol w$ 相互独立， $\boldsymbol A^T \boldsymbol A \boldsymbol \epsilon$ 项的思考与上述类似。事实上，相关性最强的项体现在Onsager term（依据Taylor展开直接得到的），但是因为线性迭代估计把Onsager term给消除了，所以依赖性大大降低。

直观理解状态演进过程

回顾AMP的状态演进分析

若噪声 $\boldsymbol w \sim \mathcal N(\boldsymbol 0, \sigma^2 \boldsymbol I)$ ，则AMP的状态演进分析为：
$\begin{aligned} \text{for } t &=0,1,2,\cdots \\ \tau^2_t &= \sigma^2 + \frac{n}{m} \mathcal E^t \\ \mathcal E^t & = \mathbb E \left \{ {\left [ \eta^t \left ( X_0 + \mathcal N(0,\tau^2_t) \right ) - X_0 \right ]}^2 \right \} \end{aligned}$

考虑误差项 $\boldsymbol e_t = \boldsymbol r_t - \boldsymbol x_0$ ，有
$\begin{aligned} \boldsymbol e_t &= \boldsymbol r_t - \boldsymbol x_0 \\ &= \hat {\boldsymbol x}^t+\boldsymbol A^T \boldsymbol \nu^t - \boldsymbol x_0 \\ & = \hat {\boldsymbol x}^t + \boldsymbol A^T \left [ \boldsymbol A ( \boldsymbol x_0 - \hat {\boldsymbol x}^{t-1}) + \boldsymbol w \right ] - \boldsymbol x_0 \\ & \rightarrow (\boldsymbol I - \boldsymbol A^T \boldsymbol A)(\hat {\boldsymbol x}^t - \boldsymbol x_0) + \boldsymbol A^T \boldsymbol w \end{aligned}$

根据中心极限定理和矩阵 $\boldsymbol A$ 的分布，可以得到 $(\boldsymbol I - \boldsymbol A^T \boldsymbol A)$ 的每一项服从高斯分布 $\mathcal N(0,1/m)$ ，因此
${\Vert (\boldsymbol I - \boldsymbol A^T \boldsymbol A)(\hat {\boldsymbol x}^t - \boldsymbol x_0) \Vert}^2_F \rightarrow \frac{n}{m} {\Vert (\hat {\boldsymbol x}^t - \boldsymbol x_0) \Vert }^2_2 \ (m,n \rightarrow \infty)$

因此
$\begin{aligned} \lim_{n \rightarrow \infty} \frac{1}{n} {\Vert \boldsymbol e_t \Vert}^2_2 & \rightarrow \frac{n}{m} \cdot \frac{1}{n} {\Vert (\hat {\boldsymbol x}^t - \boldsymbol x_0) \Vert}^2_2 + \sigma^2 \\ & = \frac{n}{m} \mathbb E[\hat x_t - x_0] + \sigma^2 \end{aligned}$