论文阅读《Parallax Attention for Unsupervised Stereo Correspondence Learning》-CSDN博客

本文链接：https://blog.csdn.net/weixin_40957452/article/details/129651223

论文提出了一个利用视差注意力机制的立体匹配方法，解决了不同数据集视图间的大视差预测问题。通过结合极线约束与注意力机制，计算特征相似度以获取匹配点信息。模型通过层叠式视差-注意力模块进行隐式正则化，包括左右一致性、循环一致性以及额外的损失函数进行正则化。实验结果表明这种方法在处理大视差匹配和遮挡情况时表现优秀。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://ieeexplore.ieee.org/document/9206116
源码地址：https://github.com/The-Learning-And-Vision-Atelier-LAVA/PAM

概述

不同数据集的视图之间的基线、焦距与分辨率不同，基于Cost Volume固定预设视差范围的立体匹配方法无法很好处理大视差预测问题。为此，作者提出一个基于视差注意力机制的立体匹配方法来捕捉大视差范围的匹配点的信息，通过将极线约束与注意力机制结合，计算沿着极线方向的特征相似度来获取匹配点之间的匹配关系。

模型架构

Formulation：在图像自注意力机制中，将特征图从 $\mathbb{R}^{H \times W \times C}$ 转换为 $\mathbb{R}^{HW \times C}$ 后进行矩阵相乘( $\mathbb{R}^{HW \times C} \times \mathbb{R}^{C \times HW}$ )来得到像素之间的注意力。受到自注意力机制的启发，PAM 基于极限约束来求左右视图极线之间的注意力，如图3所示：
在这里插入图片描述
给定左右特征图 $\in \mathbb{R^{H\times W\times C}}$ ，使用 $1\times 1$ 的卷积进行特征通道融合，继而进行维度转换得 $Q\in \mathbb{R^{H \times W\times C}}$ 与 $K\in \mathbb{R^{H\times C\times W}}$ 。将 $Q$ 与 $K$ 矩阵相乘后经过softmax层得到极线注意力图 $M_{B\longrightarrow A \in \mathbb{H\times W\times W}}$ 。将 B 经过另外一个 $1\times 1$ 卷积层后得到 $\mathbf{R} \in \mathbb{R}^{H\times W\times C}$ ，然后将 $M_{B\longrightarrow A} \in \mathbb{H\times W\times W}$ 与 $\mathbf{R}$ 相乘后得到输出特征图 $O\in \mathbb{R}^{H\times W\times C}$ ，同时使用 $M_{B\longrightarrow A} \in \mathbb{H\times W\times W}$ 生成 Mask $V_B$ 。

示例：给定尺寸为 $30\times 30$ 的左右图像 $\mathbf{I}_{left}$ 与 $\mathbf{I}_{right}$ ，可以使用PAM来生成对应的视差注意力图 $M_{left\longrightarrow right}$ 与 $M_{right\longrightarrow left}\in \mathbb{R^{30\times 30 \times 30}}$ 。
在这里插入图片描述
其中，图4中第一行为左右视差图，第二行为对应的视差注意力图，图4(a)或图4(b)中的视差注意力图的第一列为 $M_{right\longrightarrow left}$ ，其中横方向为右图的索引，纵轴为左图的索引，现在只考虑黄线(左右图像的第 $i$ 行)，。如果左右图像是完全匹配的（视差为0），则生成的注意力图像如图4(a) 第二行所示，只有对角线上的元素为1，即 $M_{right\longrightarrow left}(i, j, j)=1$ ，代表左图第 $i$ 行的第 $j$ 个像素 $\mathbf{I}_{left}(i, j)$ 与右图第 $i$ 行第 $j$ 个像素 $\mathbf{I}_{right}(i, j)$ 匹配上了。在视差不为0的区域，图4(b)所示，如视差为5的区域，表示左图第 $i$ 行的第 $j$ 个像素 $\mathbf{I}_{left}(i, j)$ 与右图第 $i$ 行第 $j - 5$ 个像素 $\mathbf{I}_{right}(i, j-5)$ 匹配上了，即 $M_{right\longrightarrow left}(i, j, j-5)=1$ 。
同时可以从视差注意力图中得到遮挡图，如图4(b) 第一列中，某些列中没有激活点，说明在右图中的 $j$ 点在左图中没有匹配点，即该点在左图中被遮挡。如果某一行没有激活点，则导表该点在右图中没有匹配点，在右图中被遮挡。

左右一致性与循环一致性：为了得到可靠的一致性匹配结果，使用左右一致性与循环一致性来对PAM模块进行正则化。给定左右视图 $\mathbf{I}_{left}$ 与 $\mathbf{I}_{right}$ 与 $M_{left\longrightarrow right}$ 与 $M_{right\longrightarrow left}$ ，有：
$\left\{\begin{aligned} \mathbf{I}_{\text {left }} & =\mathbf{M}_{\text {right } \rightarrow \text { left }} \otimes \mathbf{I}_{\text {right }}, \\ \mathbf{I}_{\text {right }} & =\mathbf{M}_{\text {left } \rightarrow \text { right }} \otimes \mathbf{I}_{\text {left }} \end{aligned}\right.\tag{1}$
其中 $\otimes$ 表示带有几何感知的矩阵乘法，同理，循环一致性表示为：
$\left\{\begin{aligned} \mathbf{I}_{\text {left }} & =\mathbf{M}_{\text {left } \rightarrow \text {right } \rightarrow \text { left }} \otimes \mathbf{I}_{\text {left }}, \\ \mathbf{I}_{\text {right }} & =\mathbf{M}_{\text {right } \rightarrow \text {left } \rightarrow \text { right }} \otimes \mathbf{I}_{\text {right}} \end{aligned}\right.\tag{2}$
其中循环注意力图计算如下：
$\left\{\begin{array}{rl} \mathbf{M}_{\text {left } \rightarrow \text { right } \rightarrow l e f t} & =\mathbf{M}_{\text {right } \rightarrow \text { left }} \otimes \mathbf{M}_{\text {left } \rightarrow \text { right }} \\ \mathbf{M}_{\text {right } \rightarrow \text { left } \rightarrow \text { right }} & =\mathbf{M}_{\text {left } \rightarrow \text { right }} \otimes \mathbf{M}_{\text {right } \rightarrow \text { left }} \end{array} \right.\tag{3}$
其中， $\otimes$ 表示矩阵乘法，对于第 $i$ 行， $\mathbf{M}_{\text {right } \rightarrow \text { left }}(i, :, :)\in \mathbb{R}^{W\times W}$ 与 $\mathbf{I}_{right}(i, :, :)\in \mathbb{W\times C}$ 相乘的结果为第 $i$ 行的每个特征，将 $W$ 行的结果拼接得到 $\mathbf{I}_{left}\in \mathbb{R}^{H\times W\times C}$ 。

有效值掩码：左右一致性与循环一致性都未包含遮挡区域的信息，文中使用视差注意力图来生成有效区域掩码，只在有效区域进行正则化，有效掩码如下图所示：
$\mathbf{V}_{\text {left }}(i, k)=\left\{\begin{array}{ll} 1, & \text { if } \sum_{j \in[1, W]} \mathbf{M}_{l e f t \rightarrow r i g h t}(i, j, k)>\tau \\ 0, & \text { otherwise } \end{array}\right.\tag{4}$
在这里插入图片描述

层叠式视差-注意力模块

层叠注意力模块包含3个stages，每个stage包含4个视差注意力blocks，如图7(b)所示：
在这里插入图片描述
通过沙漏网络提取到的左右视图的特征图大小为 $\mathbf{F^1_{left}}$ ， $\mathbf{F^1_{right}}\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times C}$ 与初始代价 $C^0_{right \rightarrow left}$ ， $C^0_{right \rightarrow left }\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times \frac{W}{16}}$ (初始化为0)。使用 $3\times 3$ 的卷积处理 $\mathbf{F}^l_{left}$ 与 $\mathbf{F}^l_{right}$ 后得到 $\mathbf{F}_{left}$ 与 $\mathbf{F}_{right}$ 。然后使用 $1\times 1$ 的卷积层处理 $\mathbf{F}_{left}$ 与 $\mathbf{F}_{right}$ 后得到 $\mathbf{Q}$ 与 $\mathbf{K}$ , reshape后相乘得到 $C^1_{right \rightarrow left }\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times \frac{W}{16}}$ 。交换 $\mathbf{F^1_{left}}$ ， $\mathbf{F^1_{right}}$ 后生成 $C^1_{left \rightarrow right }\in \mathbb{R}^{\frac{H}{16}\times \frac{W}{16}\times \frac{W}{16}}$ 。如图7(b) 所示，将生成的结果送入后续的block中继续生成新的特征图与 $C$ 。在每个stage之后进行双线性插值到上一层后继续迭代。得到最后的得分矩阵 $C^3$ 。
模型通过层叠式视差-注意力模块完成隐式正则化，如图8所示:
在这里插入图片描述
为了简化分析，在此过程中只考虑 $3\times 3$ 的卷积操作。在第 $m^{th}$ 的视差注意力 block 中，左右视图 $\mathbf{f}^5_{left}$ 与 $\mathbf{f}^5_{right}$ 之间cost $c^m_{5,5}$ 计算如式5所示：
$\begin{aligned} c_{5,5}^{m} & =c_{5,5}^{m-1}+\left(\mathbf{w}_{Q}^{m} \mathbf{f}_{\text {left }}^{5}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m} \mathbf{f}_{\text {right }}^{5} \\ & =c_{5,5}^{m-1}+\left(\mathbf{f}_{\text {left }}^{5}\right)^{\mathrm{T}}\left(\mathbf{w}_{Q}^{m}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m} \mathbf{f}_{\text {right }}^{5}, \\ & =c_{5,5}^{m-1}+\Psi^{m}\left(\mathbf{f}_{\text {left }}^{5}, \mathbf{f}_{\text {right }}^{5}\right) \end{aligned}\tag{5}$
其中 $w_Q^m$ , $w_K^m\in \mathbb{R}^{C\times C}$ 为 $1\times 1$ 的卷积层， $\mathbf{f}^5_{left}$ 与 $\mathbf{f}^5_{right}\in \mathbb{R}^{C\times 1}$ 为匹配点的特征。 $\Psi^{m}$ 为输入特征对之间的匹配代价。在 $m+1)^{th}$ 层block的特征向量由第 $m^{th}$ 层特征向量 $\mathbf{f}_{left}$ 与 $\mathbf{f}_{right}$ 的局部邻域聚合而来：
$\left\{\begin{array}{rl} \mathbf{f}_{\text {left }} & =\sum_{i=1}^{9} \mathbf{w}^{i} \mathbf{f}_{\text {left }}^{i} \\ \mathbf{f}_{\text {right }} & =\sum_{j=1}^{9} \mathbf{w}^{j} \mathbf{f}_{\text {right }}^{j} \end{array},\right.\tag{6}$
其中 $\mathbf{w}^{i}$ 与 $\mathbf{w}^{j}\in \mathbb{R}^{C\times C}$ 为权值共享的 $3\times 3$ 的卷积操作。 $\mathbf{f}_{left}$ 与 $\mathbf{f}_{right}\in \mathbb{R}^{C\times C}$ 为输出特征向量，匹配代价计算如式7所示：
$\begin{aligned} c_{5,5}^{m+1} & =c_{5,5}^{m}+\left(\mathbf{w}_{Q}^{m+1} \mathbf{f}_{\text {left }}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m+1} \mathbf{f}_{\text {right }} \\ & =c_{5,5}^{m}+\sum_{i} \sum_{j}\left(\mathbf{w}_{Q}^{m+1} \mathbf{w}^{i} \mathbf{f}_{\text {left }}^{i}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m+1} \mathbf{w}^{j} \mathbf{f}_{\text {right }}^{j} \\ & =c_{5,5}^{m}+\sum_{i} \sum_{j}\left(\mathbf{f}_{l e f t}^{i}\right)^{\mathrm{T}}\left(\mathbf{w}^{i}\right)^{\mathrm{T}}\left(\mathbf{w}_{Q}^{m+1}\right)^{\mathrm{T}} \mathbf{w}_{K}^{m+1} \mathbf{w}^{j} \mathbf{f}_{\text {right }}^{j}, \\ & =c_{5,5}^{m}+\sum_{i} \sum_{j} \Psi_{i, j}^{m+1}\left(\mathbf{f}_{l e f t}^{i}, \mathbf{f}_{\text {right }}^{j}\right) \end{aligned}\tag{7}$
求中 $\mathbf{w}_{Q}^{m+1}$ , $\mathbf{w}_{K}^{m+1}\in \mathbb{R}^{C\times C}$ 为两个 $1\times 1$ 的卷积层。 $\Psi_{i, j}^{m+1}(.)$ 为输入特征对之间的匹配代价。从事7中可以看出，在从 $m^{th}$ 到 $m^{th+1}$ 层的过程中完成了隐式的代价聚合。

视差回归

由stage 3 得到的 $\mathbf{C}^3_{right \rightarrow left}$ 和 $\mathbf{C}^3_{left \rightarrow right}$ 经过softmax层得 $\mathbf{M}^3_{right \rightarrow left}$ 和 $\mathbf{M}^3_{left \rightarrow right} \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times \frac{W}{4}}$ , 如图7（c）所示。继而使用 $\mathbf{M}^3_{left \rightarrow right}$ , $\mathbf{M}^3_{right \rightarrow left}$ 生成有效值掩码 $\mathbf{V}^3_{left}$ 和 $\mathbf{V}^3_{right}$ ，最后回归视差值：
$\hat{\mathbf{D}}=\sum_{k=0}^{W / 4-1} k \times \mathbf{M}_{\text {right }}^{3} \text { left }(:,:, k)\tag{8}$

视差细化

如图7a所示，使用初始视差值 $\hat{\mathbf{D}}$ 与 $\mathbf{F}_{left}^4$ 拼接后送入沙漏网络中生成视差的残差图 $\hat{\mathbf{D}}_{res}$ 与置信度图 $\mathbf{M}_{con}$ :
$\hat{\mathbf{D}}_{\text {refined }}=\left(1-\mathbf{M}_{\text {con }}\right) \times \hat{\mathbf{D}}_{\text {ini }} \uparrow+\mathbf{M}_{\text {con }} \times \hat{\mathbf{D}}_{\text {res }}\tag{9}$
其中 $\uparrow$ 为上采样操作。

损失函数

光度损失：

$\mathcal{L}_{\mathrm{p}}=\frac{1}{N} \sum_{p \in \mathbf{V}_{\text {left }}} \alpha \frac{1-\mathcal{S}\left(\mathbf{I}_{l e f t}(p), \hat{\mathbf{I}}(p)\right)}{2}+(1-\alpha)\left\|\mathbf{I}_{\text {left }}(p)-\hat{\mathbf{I}}(p)\right\|_{1},\tag{10}$

平滑损失：

$\begin{array}{l} \mathcal{L}_{\mathrm{s}}= \frac{1}{N} \sum_{p}\left(\left\|\nabla_{x} \hat{\mathbf{D}}_{\text {refined }}(p)\right\|_{1} e^{-\left\|\nabla_{x} \mathbf{I}_{l e f t}(p)\right\|_{1}}\right. \\ +\left\|\nabla_{y} \hat{\mathbf{D}}_{\text {refined }}(p)\right\|_{1} e^{\left.-\left\|\nabla_{y} \mathbf{I}_{l e f t}(p)\right\|_{1}\right),} \end{array}\tag{11}$

PAM Loss：

使用3个额外的损失来对不同尺度下的PAM模块正则化：
$\mathcal{L}_{\text {PAM }}^{s}=\mathcal{L}_{\text {PAM-p }}^{s}+\lambda_{\text {PAM-s }} \mathcal{L}_{\text {PAM-s }}^{s}+\lambda_{\text {PAM-c }} \mathcal{L}_{\text {PAM-c }}^{s} .\tag{12}$

基于视差注意力图的光度一致性损失：
$\begin{aligned} \mathcal{L}_{\text {PAM-p }}^{s}= & \frac{1}{N_{\text {left }}^{s}} \sum_{p \in \mathbf{V}_{\text {left }}^{s}}\left\|\mathbf{I}_{\text {left }}^{s}(p)-\left(\mathbf{M}_{\text {right } \rightarrow \text { eft }}^{s} \otimes \mathbf{I}_{\text {right }}^{s}\right)(p)\right\|_{1} & +\frac{1}{N_{\text {right }}^{s}} \sum_{p \in \mathbf{V}_{\text {right }}^{s}}\left\|\mathbf{I}_{\text {right }}^{s}(p)-\left(\mathbf{M}_{\text {left } \rightarrow r i g h t}^{s} \otimes \mathbf{I}_{\text {left }}^{s}\right)(p)\right\|_{1} . \end{aligned}\tag{13}$

基于视差注意力图的平滑性损失：
$\begin{aligned} \mathcal{L}_{\mathrm{PAM}-\mathrm{s}}^{s}= & \frac{1}{N^{s}} \sum_{\mathbf{M}^{s}} \sum_{i, j, k}\left(\left\|\mathbf{M}^{s}(i, j, k)-\mathbf{M}^{s}(i+1, j, k)\right\|_{1}\right. & \left.+\left\|\mathbf{M}^{s}(i, j, k)-\mathbf{M}^{s}(i, j+1, k+1)\right\|_{1}\right), \end{aligned}\tag{14}$

循环一致性损失：
$\begin{aligned} \mathcal{L}_{\mathrm{PAM}-\mathrm{c}}^{s}= & \frac{1}{N_{\text {left }}^{s}} \sum_{p \in \mathbf{V}_{\text {left }}^{s}}\left\|\mathbf{M}_{\text {left } \rightarrow r i g h t \rightarrow l e f t}^{s}(p)-I^{s}(p)\right\|_{1} & +\frac{1}{N_{\text {right }}^{s}} \sum_{p \in \mathbf{V}_{\text {right }}^{s}}\left\|\mathbf{M}_{\text {right } \rightarrow \text { left } \rightarrow r i g h t}^{s}(p)-I^{s}(p)\right\|_{1}, \end{aligned}\tag{15}$

$\begin{aligned} \mathcal{L}_{\text {unsup }}= & \mathcal{L}_{\mathrm{p}}+\lambda_{\mathrm{s}} \mathcal{L}_{\mathrm{s}} +\lambda_{\text {PAM }}\left(0.2 \mathcal{L}_{\text {PAM }}^{1}+0.3 \mathcal{L}_{\text {PAM }}^{2}+0.5 \mathcal{L}_{\text {PAM }}^{3}\right) . \end{aligned}\tag{16}$