ICLR2024佳作：多视图Transformer再次升级，直接感知三维几何信息

最新推荐文章于 2025-03-01 00:02:04 发布

深蓝学院

最新推荐文章于 2025-03-01 00:02:04 发布

阅读量1.1k

点赞数 16

分类专栏：三维视觉文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.csdn.net/soaring_casia/article/details/139519785

版权

论文标题：

GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers

论文作者：

Takeru Miyato, Bernhard Jaeger, Max Welling, Andreas Geiger

导读：

本文提出一种几何感知注意力机制，替换Transformer中原有的位置编码方式，使得Transformer更好地学习3D几何结构，有效提取3D特征信息。©️【深蓝AI】编译

1. 摘要

由于Transformer作用等价于输入标记的置换，因此许多任务都需要对标记的位置信息进行编码。然而，目前的位置编码方案是为NLP任务设计的，因此它们是否适合视觉任务还存在疑问，主要原因是视觉任务的数据通常具有不同的结构属性。作者认为，现有的位置编码方案对于3D视觉任务来说并不合理，因为它们并不遵从其底层的3D几何结构。基于这一假设，本文提出了一种几何感知注意力机制，该机制将标记的几何结构编码为由查询和键值对之间的几何关系决定的相对变换。通过在稀疏和宽基线多视图设置的新视图合成（NVS）数据集上进行评估，实验表明，作者的注意力【几何变换注意力（GTA）】机制提高了基于Transformer的最先进NVS模型的学习效率和性能，而无需任何额外的学习参数，计算开销也很小。

在这里插入图片描述
图1｜GTA机制示意图©️【深蓝AI】编译

在这里插入图片描述
图2｜合成实验示意图©️【深蓝AI】编译

2. 引言

Transformer模型由一组排列对称的网络层组成，它将输入标记作为一个集合进行处理，缺乏对标记结构信息的直接感知。因此，Transformer模型并不能完全感知输入标记的结构，如NLP中的词序或图像处理中图像像素或斑块的2D位置。

让Transformer具有位置感知能力的一种常见方法是通过向量嵌入：在NLP中，一种典型的方法是将单词标记的位置值转化为嵌入向量，然后添加到输入标记或注意力权重中。虽然这些位置编码技术最初是为NLP设计的，但如今已广泛应用于2D和3D视觉任务。

于是，一个自然而然的问题出现了：

“现有的编码方案是否适用于几何结构不同的任务？例如，考虑使用多视角图像和相机变换的 3D 视觉任务。”

多视角图像背后的3D欧几里得对称结构比一维文字序列更为复杂，如果采用典型的向量嵌入方法，模型的任务是挖掘出嵌入在标记中的有用的相机姿势，因此很难理解非交换欧几里得变换的效果。

作者的目标是寻求一种原则性的方法，将标记的几何结构纳入Transformer中。为此，本文引入了一种方法，将标记关系编码为矩阵变换的方法。更具体地说，作者利用由查询和键值标记之间的几何关系，然后将这些矩阵变换应用于键值对，从而使模型能够在对齐的坐标空间中计算QKV注意力。

作者在几项具有稀疏和宽基线多视图设置的新视图合成（NVS）任务中评估了所提出的注意力机制，这些任务尤其艰巨，模型需要从多个训练场景中学习强大的三维几何先验。作者的研究表明，现有的位置编码方案是次优的，而本文提出的几何感知注意力【即几何变换注意力（GTA）】，只需用 GTA 替代现有的位置编码，就能显著提高基于Transformer的最先进 NVS 模型的学习效率和性能。

在这里插入图片描述
图3｜合成实验结果对比©️【深蓝AI】编译

3. 相关工作

给定标记特征 $X\in \mathbb{R}^{n\times d}$ ，注意力层的输出 $\in \mathbb{R}^{n\times d}$ 具体计算如下：

${\rm Attn}(Q, K, V) = {\rm softmax}(Q K^{\rm T})V$

其中 $Q,K,V=XW^Q,XW^K,XW^V\in \mathbb{R}^{n\times d}, W^{\{Q, K, V\}}\in \mathbb{R}^{d\times d}$ ，并且 $(n, d)$ 分别是标记的数量和通道维度。注意，上述公式中的输出与键值向量索引的排列无关。为了打破这种排列对称性，作者明确地将位置信息编码到Transformer中，这就是位置编码（PE）。原始Transformer通过为所有输入标记添加嵌入来纳入位置信息。这种绝对位置编码（APE）方案的形式如下：

${\rm softmax}\left((Q+\gamma({\bf P})W^Q)(K+\gamma({\bf P})W^K)^{\rm T}\right) (V+\gamma({\bf P})W^V$

其中 $\bf P$ 表示标记 $X$ 的位置属性，而 $\gamma$ 是PE的函数， $\gamma$ 通常是正弦函数，它将位置值转换为具有多个频率的傅里叶特征。也有人提出了另一种 PE 方法，将每对查询和关键值标记之间的相对距离编码为偏差，添加到注意力操作的每个分量中：

${\rm softmax}\left(QK^{\rm T} + \gamma_{\rm rel}({\bf P})\right)(V+\gamma'_{\rm rel}({\bf P}))$

其中， $\gamma_{\rm rel}({\bf P})\in \mathbb{R}^{n\times n}\ and \ \gamma'_{\rm rel}({\bf P})\in \mathbb{R}^{n\times d}$ 是取决于标记之间距离的偏差项。这种编码方案被称为相对位置编码（RPE），可确保嵌入不依赖于序列长度，从而提高长度泛化能力。

继在NLP领域取得成功之后，Transformer在各种基于图像的计算机视觉任务中也显示出了其功效。这些算法使用APE或RPE的变体应用于2D位置信息，使模型意识到2D图像结构。不同研究的实施细节各不相同，除了2D视觉，基于Transformer的模型在3D视觉中的应用也在激增。

在3D视觉中，已经涌现了各种PE方案，主要依赖于基于APE或RPE的编码。在NVS中，通过向标记添加线性变换的扁平相机外参矩阵来嵌入相机外参信息。此外还有将相机外参和内参信息通过添加或连接到标记的射线嵌入进行编码。也有人使用射线信息，并通过链接到每对查询和关键标记的射线信息计算出的射线距离来偏置注意力矩阵。3D检测和分割中的另一个挑战是输出通常在正交相机网格中，与透视相机输入不同。

此外，由于使用高分辨率特征网格，因此通常需要稀疏注意力机制。也有方案对查询使用可学习PE，而对键和值不使用PE。有学者发现在使用可变形注意力时，对每个摄像机使用标准可学习PE并不能提高性能。还有通过为每个像素生成多个深度的3D点并在用MLP编码后将这些点添加到图像特征中，将PE添加到键和值中。使用摄像机参数学习位置嵌入，并将它们应用于查询和键，以模仿摄像机和目标世界坐标之间的关系。还有人通过使用深度信息将图像标记与其3D位置联系起来，从而提高了性能。

在点云Transformer中，有人使用APE对点云的三维位置进行编码。也有使用基于RPE的注意力机制，将标记之间的距离或角度差作为几何信息。基于外极点的采样技术用于在注意力层中采样输入视图的几何相关标记，其中关键标记和值标记沿目标视图和输入视图之间由相机参数确定的外极线采样。

4. 通过相对变换进行几何编码

在这项工作中，作者的重点是新视图合成（NVS），这是3D视觉中的一项基本任务。NVS任务是在一组场景上下文视图及其视点信息（表示为4 × 4外在矩阵，每个矩阵将世界坐标中的三维点映射到摄像机坐标中的相应点）的条件下，从新颖视图预测图像。NVS任务要求模型直接从原始图像输入中理解场景几何。

现有摄像机变换编码方案的主要问题是没有遵循欧几里得变换的几何结构。在上述内容中，嵌入被添加到每个标记或注意力矩阵中。然而，多视角图像背后的几何结构受欧几里得对称性的制约。当视角发生变化时，物体在摄像机坐标中的姿态变化是根据相应的摄像机变换计算出来的。

本文提出的方法通过QKV特征的相对变换，将几何变换直接纳入变换器的注意机制。具体来说，每个键值标记都通过相对变换进行转换，而相对变换是由查询和键值标记之间的几何属性决定的。这可以看作是坐标系对齐，类似于计算机视觉中的几何处理：

当比较两组各自在不同相机坐标空间中表示的点时，作者使用相对变换 $c c'^{-1}$ 移动其中一组，以获得在同一坐标空间中表示的所有点。这里的 $c$ 和 $c^{'}$ 是各自点集的外特征，作者的注意力机制在注意力特征空间内执行这种坐标对齐。通过这种对齐，模型不仅能在同一参考坐标空间中比较查询向量和关键向量，还能在每个标记的对齐局部坐标中的残差路径上执行因值向量变换而导致的注意力输出加法。

这种将变换直接应用于注意力特征的方法，与经典的变换自动编码器、胶囊神经网络和等变表示学习模型有着相同的理念。在这些研究中，几何信息是作为神经网络潜变量的一种变换来提供的。假设 $\Phi(x)$ 是一个编码特征，其中 $\Phi$ 是一个神经网络， $x$ 是一个输入特征， $M$ 是一个相关变换（如旋转）。然后，(\Phi(x), $\mathcal{M})$ 与 $\mathcal{M} \Phi(x)$ 被识别。作者将这种特征变换整合到注意力中，以打破其排列对称性。

· 群和表示：

首先简要介绍一下群和表示的概念，因为作者通过群论的语言来描述他们提出的关注点，群论以统一的方式处理不同的几何结构，如相机变换和图像位置。简而言之，具有元素的群是一个关联集，在乘法下是封闭的，具有同一元素，每个元素都有一个逆元素。例如，摄像机变换集符合群公理，被称为特殊欧几里得群： $SE (3)$ 。具体可以表示为一个函数 $\rho: G \rightarrow GL_d(\mathbb{R})$ ，满足 $\rho(g)\rho(g') = \rho(g g')$ ，对于任何 $\in G$ 。符合 $\rho(g)\rho(g') = \rho(g g')$

最低0.47元/天解锁文章