Efficient 6D object pose estimation based on attentive multi‐scale contextual information

m0_55576290

已于 2022-08-19 16:26:23 修改

阅读量333

点赞数

文章标签：计算机视觉深度学习人工智能神经网络

于 2022-08-19 16:20:02 首次发布

摘要

然而，由于光照变化、遮挡甚至物体之间的截断导致应用场景的复杂性，准确的 6D 姿态估计仍然是一个挑战问题，并且在先前的工作中需要对准确的 6D 物体姿态估计进行额外的细化。针对这些复杂场景中 6D 对象姿态估计的效率和准确性，

本文提出了一种新颖的端到端网络，该网络有效地利用每个像素邻域内的上下文信息从 RGB D估计 6D 对象姿态。具体来说，我们的网络首先应用注意力机制来提取有效的像素级密集多模态特征，然后通过整合不同尺度的像素级特征进行姿态估计，将其扩展为多尺度密集特征。

所提出的方法在 LineMOD 和 YCB-Video 数据集上进行了广泛的评估，实验结果表明，所提出的方法在平均点距离和平均最近点距离方面优于几个最先进的基线。

介绍

然而，由于光照变化、传感器噪声、物体之间的遮挡甚至截断，此类应用场景复杂多变，因此复杂场景中的 6D 物体姿态估计仍然是一个挑战。

建立目标图像和目标模型之间的对应关系，从而获得 6D 对象位姿。然而，这种方法只对纹理丰富的物体有效，不能提取有效的特征来匹配无纹理的物体。此外，基于 RGB信息的手工特征很难适应光照的变化。
随着 RGB-D 传感器的出现，与 RGB 图像相比，RGB-D图像提供了额外的空间深度信息，这可以确保无纹理物体即使在光线不足的条件下也具有足够的特征。基于 RGB-D 图像估计6D对象姿态的典型方法是从这些图像中提取特征，执行模板匹配，最后通过假设验证估计无纹理对象的姿态。然而，由于手工特征提取和固定匹配过程的限制，此类方法难以抵抗遮挡，无法在复杂环境中实现有效的位姿估计。
鉴于深度学习最近在视觉识别方面取得的成功，引入了一系列数据驱动的方法来使用深度网络估计对象姿态。
- 在现有的基于 RGB-D 的方法中，一些方法如 PoseCNN 引入卷积神经网络 (CNN)，首先从 RGB 图像中预测粗略的6D 姿态，然后使用优化步骤（例如迭代最近点算法）（ICP））充分利用深度信息来细化粗略姿态。
- BB8、SSD-6D、YOLO-6D和PVNet等方法使用基于CNN的架构从RGB图像中预测预定义3D关键点的2D投影，并获得通过解决Perspective-n-Point(PnP)问题来粗略姿态，然后还使用ICP算法来细化姿态。与传统方法相比，这些方法可以更好地抵抗遮挡，但细化步骤无法与最终目标联合优化，因此非常耗时。
- 最近的研究发现，有效和准确的姿态估计的关键是合理利用RGB-D数据中颜色和深度信息的互补性。当前最先进的（SOTA）方法DenseFusion分别处理两个异构数据源，并在像素级提取和融合RGB和点云信息，明确考虑了局部外观和几何信息。该方法可以抵抗重度遮挡，并且不需要额外的优化步骤来处理深度信息。然而，逐像素特征提取方法忽略了每个像素邻域内的上下文信息。因此，RGB-D信息在DenseFusion中没有得到充分利用，需要额外的迭代细化步骤来细化姿势。

在这里插入图片描述

我们的网络从输入的 RGB-D 图像中提取包含不同尺度上下文信息的多尺度多模态特征。多模态特征结合颜色和几何特征来估计 6D 对象姿态。

上述问题促使我们提出一种新的基于RGB-D图像的端到端网络来估计6D对象姿态。其整体结构如图1所示，核心是在不同的感受野中自注意力地提取多尺度密集特征。该方法有效地融合了颜色和几何特征来执行6D对象姿态估计。首先，我们使用编码器和注意力机制有效地提取和融合两个异构特征，以获得保留颜色和几何信息原始结构的像素级多模态特征。然后我们使用多尺度网络通过整合不同尺度的逐像素特征来增强特征表示，并将提取的多尺度特征与相应的全局特征逐像素融合，得到多尺度稠密判别特征，最终发送到姿态估计网络，用于不同尺度的密集姿态预测。通过这种方式，我们的网络可以有效地利用每个像素邻域内的上下文信息以及抵抗重度遮挡，从而在不进行额外细化的情况下实现准确的对象姿态估计。

我们在 LineMOD 和 YCBVideo 数据集上评估我们的方法。在这两个基准数据集中，我们的方法显示了 SOTA 性能。总之，我们工作的主要贡献如下：

提出了一种自注意力网络，可以有效地提取和融合像素级多模态特征，同时保留其原始结构。
提出了一种多尺度密集特征提取网络，用于对具有不同感受野的像素级多模态特征进行多尺度提取。充分利用每个像素邻域内的上下文信息来实现准确的6D 对象姿态估计，而无需额外的细化过程。
我们的方法在 LineMOD 和 YCBVideo 数据集上进行了评估。 SOTA 性能是在 YCB-Video
数据集的平滑和无纹理对象上实现的，LineMOD 数据集的结果表明我们的方法优于 DenseFusion 细化 0.3%。此外，每帧的处理速度提高了 18%

注意力机制

神经网络中的注意力机制旨在强调特定特征，通常用于计算机视觉和语言处理任务。已经提出了许多注意机制的变体来获得注意图。

SENet可以利用特征的通道间关系，通过学习自动获取每个特征通道的重要性，然后相应地增强有用的特征并抑制对当前任务不太有用的特征。

SKNet对输入的RGB信息使用不同大小的卷积核，并在相应的提取特征图上执行注意力机制，以自主选择合适的卷积核并自适应地调整特征感受野。

CBAM同时采用通道和空间注意，并在分类和识别任务中表现出显着的性能。受这项工作的启发，我们提出了一种像素级特征注意机制（PFAM），以利用像素级多模态特征的通道间和空间相关性进行 6D 姿态估计。

方法

我们网络的目标是从 RGB-D 图像中估计已知物体的 6D 姿态。具体来说，6D 位姿是指由平移变换 t ∈ ℝ3 和旋转变换 R ∈ SO3 组成的齐次变换矩阵P = [R|t] 。由于 6D 对象位姿是根据相机图像估计的，因此将其定义为从 3D 对象坐标系相对于相机坐标系的变换。

图2展示了我们网络的整体结构，主要分为三个阶段。

在第一阶段，对输入的 RGB 和深度图像执行语义分割以进行目标检测。
在第二阶段，将分割后的颜色和深度信息输入不同的编码器（即 PointNet 和 CNN）和 PFAM 以提取像素级多模态特征。在这里，注意力机制有助于提取更有影响力的特征。
在第三阶段，使用多尺度框架来整合不同尺度的像素级特征，然后将其与相应的全局密集特征融合，以诱导多尺度特征用于 6D 对象姿态估计。

图 2 我们网络的整体结构。主要分为语义分割、逐像素特征提取和多尺度特征提取三个阶段。 RGB 和深度图像首先进行语义分割，然后输入基于 CNN 的架构和 PointNet 以提取特征，其中 PFAM 用于提取更有影响力的特征。最后，使用卷积层通过在不同尺度上整合逐像素特征来增强特征表示，并使用平均池化层和卷积层组成的模块来提取全局特征

语义分割

由于输入的 RGB 和深度信息位于不同的空间并且具有不同的数据结构，因此我们处理这两个异构数据源分别提取几何和颜色特征，同时保留数据源的内在结构。

在处理异构数据源的过程中，首先使用编码器-解码器网络对 RGB 和深度图像进行语义分割，然后将结果输入我们的网络。在我们的工作中，我们使用了[18]提供的现有语义分割结果，并专注于姿态估计算法。

特征提取和逐像素特征注意

在第二阶段，使用不同的编码器处理点云和 RGB 信息，以提取像素级几何和颜色特征。如图 2 所示，注意块 PFAM 在逐像素几何和颜色特征连接之后使用。输入点云在这里插入图片描述
包含 n 个点，其中 pi 表示输入云中第 i 个点的三维空间坐标，通过使用将分割的深度像素转换为 3D 点云得到已知的相机内在函数。输入图像是由语义分割掩码的边界框裁剪的 H×W×3 RGB 图像。

图 3 显示了 PFAM 的整体结构。首先使用通道注意模块来利用像素级多模态特征的通道间关系。为了实现这一点，一个 1D 卷积层从输入的逐像素多模态特征生成一维几何特征 $f_G$ ，并通过将 $f_G$ 与注意力图 $f_G$ 相乘来获得有影响的逐像素多模态特征。如图 3 所示， $A(f_G)$ 是通过将 $f_G$ 输入到一个由一个平均池化层、两个全连接层和一个 sigmoid 层组成的模块中获得的。然后是两个 1D具有小 $(1\times1)$ 和大 $(3\times1)$ 大小的卷积层分别用于将通道加权特征映射到具有不同感受野的两个特征图上，通过输入这两个特征图生成这两个特征图的两个注意力图成一个由一个平均池化层、两个一维卷积层和一个 sigmoid 层组成的模块。最终的输出特征是两个加权特征图的总和。

为了有效地提取像素级特征，使用三个 PFAM 来提取更有影响力的级联像素级几何和颜色特征。图 4 显示了在提取连接的逐像素特征过程中的输出大小。输入特征与大小为 $[N \times 128]$ 的像素级几何和颜色特征相连接，在一个 PFAM 和一个由一个一维卷积层和一个 PFAM 组成的模块之后，它们分别变为 $[N \times 128]$ 和 $[N \times 256]$ 。然后通过连接两个加权的像素级特征，然后将其输入到一个 PFAM 中，获得大小为 $[N \times 384]$ 的最终特征。选择特征大小以确保具有合理网络参数大小的良好性能。当最终特征的大小增加到 $[N \times 384]$ 时，性能良好。但是，当大小继续增加时，性能几乎相同，网络参数大小要大得多。
在这里插入图片描述

多尺度多模态特征

由于像素级特征提取忽略了每个像素邻域内的上下文信息，因此在第二阶段从 RGB-D 图像中提取的融合有影响的像素级几何和颜色特征被馈送到多尺度网络以增强通过在不同尺度上集成像素级特征来表示特征。此外，为了获得有效的判别特征，对局部和全局特征进行了合理的融合。

多尺度多模态特征提取的过程分为三个步骤。

在第二阶段提取有影响的逐像素特征作为初步多模态特征 f0 。
然后将其输入多尺度网络以提取多尺度多模态特征，其中使用了三个不同的尺度，表示为
最后，将提取的每个尺度的多模态特征输入到一个由一个卷积层和一个平均池化层组成的模块中，得到对应的全局特征，与输入的多模态特征相连接，提供全局上下文。由此产生的包含上下文信息的多模态判别特征表示为：
其中⊕代表特征通道的串联，⊗代表传统的卷积操作。 $W_s$ 和 $b_s$ 分别是 $f_s'$ 的权重和偏差。

图 5 显示了在提取多尺度多模态特征过程中每个模块的输出大小。大小为 [N × 384] 的加权像素级多模态特征依次输入到两个 1D 卷积层中，步长为 2，内核大小为 3 × 1。在每个卷积层之后，输出特征大小是输入特征的一半，感受野大小增加一倍。然后将生成的多尺度多模态特征分别输入[N × 384] [N 2 × 384] 和 [N 4 × 384] 的大小，分别输入到由一个一维卷积层和一个平均池化层组成的模块中，输出平均特征相同大小为[1×1024]的值，通过重复操作复制形成大小分别为[N×1024][N2×1024]和[N4×1024]的全局特征向量。最后，将原始的多尺度多模态特征和全局特征连接起来形成多尺度特征，用于6D物体姿态估计。
在这里插入图片描述

6D物体姿态估计

6D物体姿态估计的质量标准是通过ground truth和预测姿态变换得到的物体模型中采样点之间的平均距离，其中预测姿态是通过多尺度多模态特征的密集回归输出的。因此，预测姿势的质量被测量为：在这里插入图片描述
其中 $x_j$ 是对象模型的第 j 个点， $p = [R ∣ t]$ 是真实位姿， $\widetilde{p}=[\widetilde{R}_i|\widetilde{t_i} ]$ 是预测的位姿，M 是对象模型中的点数。

上述标准仅适用于具有唯一正确姿势的不对称对象。但是，它不能很好地处理对称对象，因为对称对象可以有不止一个，并且可能有无限数量的正确旋转。为了不惩罚我们的网络回归到一种替代的正确旋转，对对称对象采用了新的度量标准：在这里插入图片描述
其定义为地面实况姿态变换后对象模型中的样本点与预测姿态变换后最近点之间的平均距离。需要注意的是，等式（3）中的函数也可以应用于非对称对象。

有许多预测姿势 $（\widetilde{p}_i）$ ，网络必须独立学习以选择最有可能是正确对象姿势的姿势。为了实现这一点，在我们网络的损失函数中，每个预测姿势 $\widetilde{p}_{i,s}$ 的 $L^p_{i,s}$ 由相应的自监督密集像素置信度 $c_{i,s}$ ，并且还添加了一个置信度正则化项来选择具有最小 $L^p_{i,s}$ 和最高 $c_{i,s}$ 的最佳预测姿势：
在这里插入图片描述
其中 N 是预测姿势的数量，ω 是置信度正则化项的平衡超参数，它在低置信度的情况下提供高惩罚。加上下标 s = 1； 2； 3 表示多模态特征的三个尺度，如图 5 所示