【论文阅读】[CVPR2022]TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

小羊咩~

已于 2022-04-05 17:10:27 修改

阅读量1.2w

点赞数 40

文章标签： 3d 目标检测深度学习神经网络计算机视觉

于 2022-04-05 16:41:21 首次发布

本文链接：https://blog.csdn.net/m0_58702532/article/details/123965665

版权

3D点云专栏收录该内容

5 篇文章

订阅专栏

(1)当前面临的问题是什么以及原因？

虽然sensor fusion在该领域越来越受欢迎，但是对劣质图像(inferior image)条件鲁棒性不好，（例如照明不佳和传感器未对准），现有的融合方法很容易受到这些条件的影响，主要是由于calibration matrices建立的 LiDAR points和image pixels的硬关联(hard association)。

注：calibration matrices标定矩阵：用于校准相机和LiDAR

硬关联(hard association）机制是指利用标定矩阵来建立LiDAR点和image像素的关联

(2)作者提出的解决问题的方法

作者提出 TransFusion，LiDAR-camera 融合，具有soft-association来处理劣质图像条件。

现有的 LiDAR-camera 融合方法

image-guided query initialization

Transformer Decoder

FFN

LiDAR-Camera Fusion

Image Feature Fetching.

SMCA for Image Feature Fusion.

现有的 LiDAR-camera 融合方法

大致分为三类：result-level、proposal-level 和 point-level。

(1)result-level：包括 FPointNet 和 RoarNet ，使用2D 检测器来播种 3D proposal，然后使用 PointNet 进行对象定位。

(2)proposal-level: 包括 MV3D和 AVOD，通过在共享proposal的每种模式中应用 RoIPool 在区域proposal级别执行融合。由于矩形感兴趣区域 (RoI) 通常包含大量背景噪声，因此这些粗粒度融合方法的结果并不令人满意。

以上两种：融合粒度太粗，无法充分发挥两种模式的潜力

(3)point-level：最近，大多数方法都尝试进行点级融合，效果不错。首先基于校准矩阵找到 LiDAR points和image pixels之间的硬关联(hard association)，然后通过逐点拼接，使用关联像素的分割分数或 CNN 特征来增强 LiDAR 特征。类似地，[16,17,51,60]首先将点云投影到鸟瞰（BEV）平面上，然后将图像特征与 BEV 像素融合。

尽管有了改进，point-level融合方法仍存在两个主要问题，如图1所示。

由于校准矩阵建立的点和像素之间的硬关联，此类方法容易受到传感器未对准的影响。

此外，简单的逐点拼接忽略了真实数据的质量和两种模式之间的上下文关系，因此在图像特征有缺陷时会导致性能下降。

(1)首先，它们简单地通过元素添加(element-wise addition)或串联(concatenation)来融合激光雷达特征和图像特征，因此它们的性能会随着低质量图像特征的出现而严重下降，例如，在恶劣照明条件下的图像。

(2)其次，寻找稀疏 LiDAR points和密集image pixels之间的硬关联(hard association)不仅浪费了许多具有丰富语义信息的图像特征，而且严重依赖于两个传感器之间的高质量校准

图1 左：照明条件不佳的示例。右图：由于点云的稀疏性，基于硬关联(hard association)的融合方法浪费了很多图像特征，并且对传感器校准很敏感，因为投影点可能由于校准误差小而落在物体之外。

本文的融合方法

为了缓解激光雷达相机融合过程中的以上限制

引入了一种有效且鲁棒的多模态检测框架。我们的关键思想是重新定位融合过程的焦点，从硬关联到软关联，从而提高对退化图像质量和传感器错位的鲁棒性。

本文融合模块不仅为object query提供了丰富的语义信息，而且由于 LiDAR points和image pixels之间的关联是以软自适应的方式建立的，因此对劣质图像条件更加鲁棒。

模型保留了用于特征提取的高效卷积骨干网，并利用带有少量object query的transformer解码器作为检测头，使计算成本易于管理

TransFusion

TransFusion：（序列融合方法）由两部分组成：

(1)convolutional backbones

(2)detection head based on a transformer decoder

图2 我们的模型依赖于标准的 3D 和 2D 主干来提取 LiDAR BEV 特征图和图像特征图。我们的检测头依次由两个transformer解码器层组成：（1）第一层使用一组稀疏的object query生成初始 3D 边界框，以input-dependent和category-aware的方式进行初始化。（2）第二层将第一阶段的object query（带有初始预测）与图像特征密切关联并融合，产生丰富的纹理和颜色线索，以获得更好的检测结果。引入了空间调制交叉注意 (SMCA) 机制以涉及局部诱导偏差(locality inductive bias)并帮助网络更好地关注相关图像区域。我们还提出了一种图像image-guided query initialization策略，以涉及 LiDAR BEV 上的image guidance。该策略有助于生成在稀疏 LiDAR 点云中难以检测到的object query。

第一层解码器：使用一组稀疏的object query从 LIDAR 点云预测初始边界框

与2D中的 input-dependent object query不同，我们使object queryinput-dependent和category-aware，更好丰富query的位置和类别信息。

注：

object query：用transformer架构学习一小组嵌入(embeddings)（向量集合）

在我们的工作中，每个object query都包含一个提供对象定位的query positions和一个编码实例信息的query feature，例如框的大小、方向等。

Query Initialization

input-dependent

开创性作品中的query positions都是随机生成或作为网络参数学习的。不依赖输入数据。需要额外的阶段（解码器层）来学习向真实对象中心移动的过程。观察通过更好地初始化object query，可以弥合 1 层结构和 6 层结构之间的差距。受此观察的启发，我们提出了一种based on a center heatmap的input-dependent 初始化策略，以仅使用一个解码器层来实现具有竞争力的性能。

heatmap：即热力图，在目标检测的图像处理中，采用二维高斯核来表示关键点。以bbox的中心点坐标取整作为高斯圆的圆心，以bbox的大小确定高斯圆的半径，代入高斯公式，填充高斯函数计算值（0-1），圆心的值最大，沿半径向外递减，在图像中，中心点最亮，沿半径向外变暗。热力图中，不是中心点的地方全部设为0，即黑色区域。

具体来说，给定一个d维LIDAR BEV特征图，我们首先预测一个class-specific的heatmap，其中 X × Y 描述了 BEV 特征图的大小，K 是类别的数量。然后我们将heatmap视为 X × Y × K 对象候选，并选择所有类别的前 N 个候选对象作为我们的初始object query。

为了避免空间上too closed queries，在[66]之后，我们选择局部最大元素作为我们的object query，其值大于或等于它们的8-connected neighbors。否则，需要大量的query来覆盖BEV平面。所选候选者的positions 和features用于初始化 query positions and query features。这样，我们的初始object query将定位在潜在对象中心或附近，从而无需多个解码器层 来完善位置。

category-aware

与图像平面上的2D投影不同，BEV平面上的对象都是绝对比例的，并且在相同类别中具有较小的比例方差。为了更好地利用这些属性进行multi-class detection，我们通过为每个query配备category embedding，使object query具有category-aware。

具体地说，使用每个选定候选对象的类别（例如，属于第k个类别的Sˆijk），我们将query特征与通过将one-hot category 向量线性投影到R^d向量而产生的category embedding进行元素相加

category embedding带来了两个方面的好处：

一方面，它在self-attention模块中的object-object关系和交叉注意模块cross-attention modules中的对象-上下文关系object-context relations建模时作为有用的辅助信息。

另一方面，在预测过程中，它可以提供对象的有价值的先验知识，从而使网络专注于类别内方差intra-category variance，从而有利于属性预测。

第二层解码器：利用空间和上下文关系，自适应地将object query与image features融合。

通过在空间上限制初始边界框周围的交叉注意(cross attention)来利用局部诱导偏差(locality inductive bias)，以帮助网络更好地访问相关位置。

注：自适应：transformer的注意力机制使我们的模型能够自适应地确定应该从图像中获取的信息的位置和内容，从而产生一种鲁棒有效的融合策略。

image-guided query initialization

处理在点云中难以检测的对象。query initialization阶段引入image guidance

为了进一步利用高分辨率图像检测小物体的能力并使我们的算法对稀疏的 LiDAR 点云更加鲁棒，我们提出了一种Image-Guided Query Initialization策略，该策略利用 LiDAR 和camera信息来选择object query。

具体来说，我们通过与 LiDAR BEV 特征 FL 的交叉注意将图像特征 FC 投影到 BEV 平面上来生成 LiDAR 相机 BEV 特征图 FLC。受[32]的启发，我们使用沿高度轴折叠的多视图图像特征作为注意机制的key-value sequence，如图4所示。

折叠操作collapsing operation基于以下观察结果: 可以使用相机几何形状轻松建立BEV位置与图像列之间的关系，并且通常沿着每个图像列最多只有一个对象。因此，沿着高度轴折叠可以显著减少计算，而不会丢失关键信息。虽然在这个过程中可能会丢失一些细粒度的图像特征，但它已经满足了我们的需要，因为只需要一个潜在目标位置的提示。之后，类似于Sec3.2，我们使用FLC预测热图，将仅使用激光雷达的热图ˆS作为最终热图ˆSLC进行平均。使用SˆLC选择和初始化object query，我们的模型能够检测到在激光雷达点云中难以检测的对象。

请注意，提出一种将图像特征投影到 BEV 平面上的新方法超出了本文的范围。我们相信我们的方法可以受益于这个方向的更多研究进展[26,32,33]。

Transformer Decoder

解码器层遵循 DETR 的设计，详细的架构在补充章节A。object query和feature maps (来自点云或图像) 之间的交叉注意力将相关上下文聚集到对象候选对象上，而object query之间的self attention则导致不同对象候选对象之间的成对关系。query positions通过多层感知器 (MLP) 嵌入到d-dimensional positional encoding中，并与query features按element-wisely相加。这使网络能够共同推理上下文和位置。

DETR是FIR提出的基于Transformers的端到端目标检测，没有NMS后处理步骤、没有anchor，结果在coco数据集上效果与Faster RCNN相当，且可以很容易地将DETR迁移到其他任务例如全景分割。

FFN

然后，前馈网络 feed-forward network(FFN) 将包含丰富实例信息的 N 个object query独立解码为框和类标签。根据Center-Point，我们的FFN预测从query position的中心偏移量center offset为δx，δy，边界框高度为z，大小l，w，h为log（l），log（w），log（h），偏航角yaw angle α为sin（α），cos（α），速度（如果可用）为。我们还预测了 K 个语义类的每类概率。每个属性由单独的两层 1×1 卷积计算。通过将每个object query解码为预测，我们得到一组预测，其中，是第i个query的预测边界框。在[23]之后，我们采用辅助解码机制，在每个解码层之后添加FFN和监督。因此，我们可以从第一个解码器层获得初始边界框预测。我们利用 LiDAR-camera fusion module中的此类初始预测来限制交叉注意力

LiDAR-Camera Fusion

Image Feature Fetching.

上面说过，point-level融合方法带来改进，但融合质量在很大程度上受到 LiDAR 点的稀疏性的限制。当一个物体只包含少量的激光雷达点时，它只能获取相同数量的图像特征，浪费了高分辨率图像丰富的语义信息。

为了缓解这一问题，我们没有基于LiDAR points和image pixels之间的硬关联(hard association)来获取多视图图像特征。相反，我们保留了所有图像特征 作为我们的记忆库(memory bank)，并使用transformer解码器中的交叉注意机制以稀疏密集和自适应的方式进行特征融合，如图2所示。

SMCA for Image Feature Fusion.

Multi-head attention是一种流行的在两组输入之间进行信息交换和建立软关联的机制，它已被广泛用于特征匹配任务。为了减轻硬关联策略带来的对传感器校准和劣质图像特征的敏感性，我们利用交叉注意机制在激光雷达和图像之间建立软关联，使网络能够自适应地确定应该从图像中获取哪些信息。

具体来说，我们首先在使用先前的预测以及校准矩阵定位object query，然后在object query和相应的图像特征图之间执行交叉注意力cross attention。但是，由于 LiDAR 特征和图像特征来自完全不同的域，所以object query可能会关注与要预测的边界框无关的视觉区域，导致网络需要很长时间才能准确识别图像上的正确区域。

我们设计了一个空间调制交叉注意力 (SMCA) 模块，它通过围绕每个query的投影 2D 中心的 2D 圆形高斯掩码Gaussian mask对交叉注意力进行加权。2D Gaussian 权重mask M 的生成方式与 CenterNet 类似。

(i, j) 是权重掩码 M 的空间索引

(cx, cy) 是通过将query预测投影到图像平面上计算的 2D 中心

r是三维边界框投影角的最小外切圆的半径

σ 是调制高斯分布带宽的超参数

然后，这个weight map与所有attention heads之间的cross-attention map按元素相乘。这样，每个object query只关注投影的 2D 框周围的相关区域，这样网络就可以更好更快地根据输入的 LiDAR 特征学习在哪里选择图像特征。注意力图的可视化如图 3 所示。该网络通常倾向于关注靠近对象中心的前景像素而忽略不相关的像素，为对象分类和边界框回归提供有价值的语义信息。在 SMCA 之后，我们使用另一个 FFN（上面） 使用包含 LiDAR 和图像信息的object query来生成最终的边界框预测。