Efficient 6D object pose estimation based on attentive multi‐scale contextual information

摘要

然而,由于光照变化、遮挡甚至物体之间的截断导致应用场景的复杂性,准确的 6D 姿态估计仍然是一个挑战问题,并且在先前的工作中需要对准确的 6D 物体姿态估计进行额外的细化。针对这些复杂场景中 6D 对象姿态估计的效率和准确性,

本文提出了一种新颖的端到端网络,该网络有效地利用每个像素邻域内的上下文信息从 RGB D估计 6D 对象姿态。具体来说,我们的网络首先应用注意力机制来提取有效的像素级密集多模态特征,然后通过整合不同尺度的像素级特征进行姿态估计,将其扩展为多尺度密集特征。

所提出的方法在 LineMOD 和 YCB-Video 数据集上进行了广泛的评估,实验结果表明,所提出的方法在平均点距离和平均最近点距离方面优于几个最先进的基线。

介绍

然而,由于光照变化、传感器噪声、物体之间的遮挡甚至截断,此类应用场景复杂多变,因此复杂场景中的 6D 物体姿态估计仍然是一个挑战。

  1. 建立目标图像和目标模型之间的对应关系,从而获得 6D 对象位姿。然而,这种方法只对纹理丰富的物体有效,不能提取有效的特征来匹配无纹理的物体。此外,基于 RGB信息的手工特征很难适应光照的变化。
  2. 随着 RGB-D 传感器的出现,与 RGB 图像相比,RGB-D图像提供了额外的空间深度信息,这可以确保无纹理物体即使在光线不足的条件下也具有足够的特征。基于 RGB-D 图像 估计6D对象姿态的典型方法是从这些图像中提取特征,执行模板匹配,最后通过假设验证估计无纹理对象的姿态。然而,由于手工特征提取和固定匹配过程的限制,此类方法难以抵抗遮挡,无法在复杂环境中实现有效的位姿估计。
  3. 鉴于深度学习最近在视觉识别方面取得的成功,引入了一系列数据驱动的方法来使用深度网络估计对象姿态。
    • 在现有的基于 RGB-D 的方法中,一些方法如 PoseCNN 引入卷积神经网络 (CNN),首先从 RGB 图像中预测粗略的6D 姿态,然后使用优化步骤(例如迭代最近点算法)(ICP))充分利用深度信息来细化粗略姿态。
    • BB8、SSD-6D、YOLO-6D和PVNet等方法使用基于CNN的架构从RGB图像中预测预定义3D关键点的2D投影,并获得通过解决Perspective-n-Point(PnP)问题来粗略姿态,然后还使用ICP算法来细化姿态。与传统方法相比,这些方法可以更好地抵抗遮挡,但细化步骤无法与最终目标联合优化,因此非常耗时
    • 最近的研究发现,有效和准确的姿态估计的关键是合理利用RGB-D数据中颜色和深度信息的互补性。当前最先进的(SOTA)方法DenseFusion分别处理两个异构数据源,并在像素级提取和融合RGB和点云信息,明确考虑了局部外观和几何信息。该方法可以抵抗重度遮挡,并且不需要额外的优化步骤来处理深度信息。然而,逐像素特征提取方法忽略了每个像素邻域内的上下文信息。因此,RGB-D信息在DenseFusion中没有得到充分利用,需要额外的迭代细化步骤来细化姿势。

在这里插入图片描述

我们的网络从输入的 RGB-D 图像中提取包含不同尺度上下文信息的多尺度多模态特征。多模态特征结合颜色和几何特征来估计 6D 对象姿态。

上述问题促使我们提出一种新的基于RGB-D图像的端到端网络来估计6D对象姿态。其整体结构如图1所示,核心是在不同的感受野中自注意力地提取多尺度密集特征。该方法有效地融合了颜色和几何特征来执行6D对象姿态估计。首先,我们使用编码器和注意力机制有效地提取和融合两个异构特征,以获得保留颜色和几何信息原始结构的像素级多模态特征。然后我们使用多尺度网络通过整合不同尺度的逐像素特征来增强特征表示,并将提取的多尺度特征与相应的全局特征逐像素融合,得到多尺度稠密判别特征,最终发送到姿态估计网络,用于不同尺度的密集姿态预测。通过这种方式,我们的网络可以有效地利用每个像素邻域内的上下文信息以及抵抗重度遮挡,从而在不进行额外细化的情况下实现准确的对象姿态估计。

我们在 LineMOD 和 YCBVideo 数据集上评估我们的方法。在这两个基准数据集中,我们的方法显示了 SOTA 性能。总之,我们工作的主要贡献如下:

  • 提出了一种自注意力网络,可以有效地提取和融合像素级多模态特征,同时保留其原始结构。
  • 提出了一种多尺度密集特征提取网络,用于对具有不同感受野的像素级多模态特征进行多尺度提取。充分利用每个像素邻域内的上下文信息来实现准确的6D 对象姿态估计,而无需额外的细化过程。
  • 我们的方法在 LineMOD 和 YCBVideo 数据集上进行了评估。 SOTA 性能是在 YCB-Video
    数据集的平滑和无纹理对象上实现的,LineMOD 数据集的结果表明我们的方法优于 DenseFusion 细化 0.3%。此外,每帧的处理速度提高了 18%

相关工作

传统的特征匹配方法在复杂环境中的 6D 对象姿态估计性能不佳,而最近基于深度学习的工作

Pose from RGB images

近年来,深度学习在RGB图像分类和检测方面的成功激发了一系列使用深度神经网络对RGB图像进行姿态估计的数据驱动方法。
PoseNetPoseCNN直接从整个RGB图像中回归6D位姿。

DeepIM首先从RGB图像中估计初始粗略的6D对象姿态,然后进行迭代匹配以近似估计准确的姿态。

Pix2pose从RGB图像中预测每个对象像素的3D坐标。这种直接回归方法只能很好地处理无纹理的物体,而对于纹理丰富的物体的姿态估计精度通常较低。此外,由于搜索空间大,网络缺乏泛化性,姿态估计精度不是很高。

其他方法对RGB图像进行间接回归,并通过预测(即Efficientpose、BB8、SSD-6D和YOLO-6D)或Hough投票获得对象3D关键点的2D投影(即PVNet),然后使用PnP算法计算6D位姿参数。这些间接回归方法分两步估计物体位姿,并在遮挡阻力、纹理丰富的物体处理和估计精度方面有所提高。但是,不可避免的投影误差会影响检测结果。

上述所有直接和间接回归方法都是从RGB图像中学习物体姿态,并且没有利用空间信息,这使得估计姿态的准确性仍然有限。PoseCNN+DeepIMBB8PVNet的性能与我们在实验部分的方法进行了比较

Pose from RGB‐D images

廉价 RGB-D 传感器的出现使深度学习能够利用深度信息来实现更好的 6D 对象姿态估计。这些方法根据处理RGB和深度信息源的方式可以分为三类。

在第一类中,RGB 和深度信息在早期阶段被合并以估计 6D 对象姿态 ,其中深度和 RGB 通道被简单地连接起来。

第二类方法如 PoseCNNBB8SSD-6DYOLO-6DPVNet 在不同阶段使用 RGB 和深度信息,其中粗略的 6D 对象姿态在第一阶段从 RGB 图像中预测,然后使用深度信息的 ICP 算法来细化对象姿态。**然而,这两类方法都没有考虑 RGB-D 数据中颜色和深度信息的互补性。

最近,DenseFusion 通过在后期融合颜色和深度信息,并使用像素级颜色和几何特征进行对象姿态估计来改进这一点。 PVN3D 从融合的像素级颜色和几何特征中检测对象的 3D 关键点,然后在 ICP 算法中估计 6D 姿势参数。这两种方法都考虑了 RGB-D 数据中颜色和深度信息的互补性。

然而,每个像素的邻域内的上下文信息不包含在逐像素特征中,因此需要额外的迭代姿态细化过程来细化姿态。

受此启发,我们提出了一个多尺度密集特征提取网络,以充分利用上下文每个像素的邻域内的信息。在下面的实验部分,Pos eCNN + ICP、SSD-6D+ ICP 和 DenseFusion 的性能与我们提出的方法进行了比较。

注意力机制

神经网络中的注意力机制旨在强调特定特征,通常用于计算机视觉和语言处理任务。已经提出了许多注意机制的变体来获得注意图。

SENet可以利用特征的通道间关系,通过学习自动获取每个特征通道的重要性,然后相应地增强有用的特征并抑制对当前任务不太有用的特征。

SKNet对输入的RGB信息使用不同大小的卷积核,并在相应的提取特征图上执行注意力机制,以自主选择合适的卷积核并自适应地调整特征感受野。

CBAM同时采用通道和空间注意,并在分类和识别任务中表现出显着的性能。受这项工作的启发,我们提出了一种像素级特征注意机制(PFAM),以利用像素级多模态特征的通道间和空间相关性进行 6D 姿态估计。

方法

我们网络的目标是从 RGB-D 图像中估计已知物体的 6D 姿态。具体来说,6D 位姿是指由平移变换 t ∈ ℝ3 和旋转变换 R ∈ SO3 组成的齐次变换矩阵P = [R|t] 。由于 6D 对象位姿是根据相机图像估计的,因此将其定义为从 3D 对象坐标系相对于相机坐标系的变换。

图2展示了我们网络的整体结构,主要分为三个阶段。

  • 在第一阶段,对输入的 RGB 和深度图像执行语义分割以进行目标检测。

  • 在第二阶段,将分割后的颜色和深度信息输入不同的编码器(即 PointNet 和 CNN)和 PFAM 以提取像素级多模态特征。在这里,注意力机制有助于提取更有影响力的特征。

  • 在第三阶段,使用多尺度框架来整合不同尺度的像素级特征,然后将其与相应的全局密集特征融合,以诱导多尺度特征用于 6D 对象姿态估计。

图 2 我们网络的整体结构。主要分为语义分割、逐像素特征提取和多尺度特征提取三个阶段。 RGB 和深度图像首先进行语义分割,然后输入基于 CNN 的架构和 PointNet 以提取特征,其中 PFAM 用于提取更有影响力的特征。最后,使用卷积层通过在不同尺度上整合逐像素特征来增强特征表示,并使用平均池化层和卷积层组成的模块来提取全局特征
图 2 我们网络的整体结构。主要分为语义分割、逐像素特征提取和多尺度特征提取三个阶段。 RGB 和深度图像首先进行语义分割,然后输入基于 CNN 的架构和 PointNet 以提取特征,其中 PFAM 用于提取更有影响力的特征。最后,使用卷积层通过在不同尺度上整合逐像素特征来增强特征表示,并使用平均池化层和卷积层组成的模块来提取全局特征

语义分割

由于输入的 RGB 和深度信息位于不同的空间并且具有不同的数据结构,因此我们处理这两个异构数据源分别提取几何和颜色特征,同时保留数据源的内在结构。

在处理异构数据源的过程中,首先使用编码器-解码器网络对 RGB 和深度图像进行语义分割,然后将结果输入我们的网络。在我们的工作中,我们使用了[18]提供的现有语义分割结果,并专注于姿态估计算法。

特征提取和逐像素特征注意

在第二阶段,使用不同的编码器处理点云和 RGB 信息,以提取像素级几何和颜色特征。如图 2 所示,注意块 PFAM 在逐像素几何和颜色特征连接之后使用。输入点云在这里插入图片描述
包含 n 个点,其中 pi 表示输入云中第 i 个点的三维空间坐标,通过使用将分割的深度像素转换为 3D 点云得到已知的相机内在函数。输入图像是由语义分割掩码的边界框裁剪的 H×W×3 RGB 图像。

图 3 显示了 PFAM 的整体结构。首先使用通道注意模块来利用像素级多模态特征的通道间关系。为了实现这一点,一个 1D 卷积层从输入的逐像素多模态特征生成一维几何特征 f G f_G fG,并通过将 f G f_G fG 与注意力图 f G f_G fG 相乘来获得有影响的逐像素多模态特征。如图 3 所示, A ( f G ) A(f_G) A(fG)是通过将 f G f_G fG 输入到一个由一个平均池化层、两个全连接层和一个 sigmoid 层组成的模块中获得的。然后是两个 1D具有小 ( 1 × 1 ) (1\times1) (1×1)和大 ( 3 × 1 ) (3\times1) (3×1)大小的卷积层分别用于将通道加权特征映射到具有不同感受野的两个特征图上,通过输入这两个特征图生成这两个特征图的两个注意力图成一个由一个平均池化层、两个一维卷积层和一个 sigmoid 层组成的模块。最终的输出特征是两个加权特征图的总和。

为了有效地提取像素级特征,使用三个 PFAM 来提取更有影响力的级联像素级几何和颜色特征。图 4 显示了在提取连接的逐像素特征过程中的输出大小。输入特征与大小为 [ N × 128 ] [N × 128] [N×128] 的像素级几何和颜色特征相连接,在一个 PFAM 和一个由一个一维卷积层和一个 PFAM 组成的模块之后,它们分别变为 [ N × 128 ] [N × 128] [N×128] [ N × 256 ] [N × 256] [N×256]。然后通过连接两个加权的像素级特征,然后将其输入到一个 PFAM 中,获得大小为 [ N × 384 ] [N × 384] [N×384] 的最终特征。选择特征大小以确保具有合理网络参数大小的良好性能。当最终特征的大小增加到 [ N × 384 ] [N × 384] [N×384] 时,性能良好。但是,当大小继续增加时,性能几乎相同,网络参数大小要大得多。
在这里插入图片描述
在这里插入图片描述

多尺度多模态特征

由于像素级特征提取忽略了每个像素邻域内的上下文信息,因此在第二阶段从 RGB-D 图像中提取的融合有影响的像素级几何和颜色特征被馈送到多尺度网络以增强通过在不同尺度上集成像素级特征来表示特征。此外,为了获得有效的判别特征,对局部和全局特征进行了合理的融合。

多尺度多模态特征提取的过程分为三个步骤。

  • 在第二阶段提取有影响的逐像素特征作为初步多模态特征 f0 。
  • 然后将其输入多尺度网络以提取多尺度多模态特征,其中使用了三个不同的尺度,表示为
    在这里插入图片描述
  • 最后,将提取的每个尺度的多模态特征输入到一个由一个卷积层和一个平均池化层组成的模块中,得到对应的全局特征,与输入的多模态特征相连接,提供全局上下文。由此产生的包含上下文信息的多模态判别特征表示为:
  • 在这里插入图片描述
    其中⊕代表特征通道的串联,⊗代表传统的卷积操作。 W s W_s Ws b s b_s bs 分别是 f s ′ f_s' fs的权重和偏差。

图 5 显示了在提取多尺度多模态特征过程中每个模块的输出大小。大小为 [N × 384] 的加权像素级多模态特征依次输入到两个 1D 卷积层中,步长为 2,内核大小为 3 × 1。在每个卷积层之后,输出特征大小是输入特征的一半,感受野大小增加一倍。然后将生成的多尺度多模态特征分别输入[N × 384] [N 2 × 384] 和 [N 4 × 384] 的大小,分别输入到由一个一维卷积层和一个平均池化层组成的模块中,输出平均特征相同大小为[1×1024]的值,通过重复操作复制形成大小分别为[N×1024][N2×1024]和[N4×1024]的全局特征向量。最后,将原始的多尺度多模态特征和全局特征连接起来形成多尺度特征,用于6D物体姿态估计。
在这里插入图片描述

6D物体姿态估计

6D物体姿态估计的质量标准是通过ground truth和预测姿态变换得到的物体模型中采样点之间的平均距离,其中预测姿态是通过多尺度多模态特征的密集回归输出的。因此,预测姿势的质量被测量为:在这里插入图片描述
其中 x j x_j xj是对象模型的第 j 个点, p = [ R ∣ t ] p =[R|t] p=[Rt]是真实位姿, p ~ = [ R ~ i ∣ t i ~ ] \widetilde{p}=[\widetilde{R}_i|\widetilde{t_i} ] p =[R iti ]是预测的位姿,M 是对象模型中的点数。在这里插入图片描述

上述标准仅适用于具有唯一正确姿势的不对称对象。但是,它不能很好地处理对称对象,因为对称对象可以有不止一个,并且可能有无限数量的正确旋转。为了不惩罚我们的网络回归到一种替代的正确旋转,对对称对象采用了新的度量标准:在这里插入图片描述
其定义为地面实况姿态变换后对象模型中的样本点与预测姿态变换后最近点之间的平均距离。需要注意的是,等式(3)中的函数也可以应用于非对称对象。

有许多预测姿势 ( p ~ i ) (\widetilde{p}_i) p i,网络必须独立学习以选择最有可能是正确对象姿势的姿势。为了实现这一点,在我们网络的损失函数中,每个预测姿势 p ~ i , s \widetilde{p}_{i,s} p i,s L i , s p L^p_{i,s} Li,sp 由相应的自监督密集像素置信度 c i , s c_{i,s} ci,s,并且还添加了一个置信度正则化项来选择具有最小 L i , s p L^p_{i,s} Li,sp 和最高 c i , s c_{i,s} ci,s 的最佳预测姿势:
在这里插入图片描述
其中 N 是预测姿势的数量,ω 是置信度正则化项的平衡超参数,它在低置信度的情况下提供高惩罚。加上下标 s = 1; 2; 3 表示多模态特征的三个尺度,如图 5 所示

实验

Datasets:linemod、YCB-Vedio
指标 : ADD、ADD-S

实施细节

PyTorch 框架
Adam 优化器
Intel ® Xeon® Gold 5115 CPU
NVIDIA 2080ti Xp 4 GPU


迭代次数设置为 500
批量大小设置为 16
超参数 ω 设置为 0.015
像素级特征数 n 设置为 500。

结果

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

消融实验

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值