姿态估计(类级别)

1.NOCS

过去的6D姿态估计方法主要有两个缺陷;首先需要有该对象的CAD模型并且已知对象的尺寸,这对于大部分未见过的对象无法使用。另外一种虽然可以不需要已有的CAD模型,但是依赖于视点,不会对目标对象的精确方向进行编码。所以这两类方法都无法对新环境中的对象进行精确的姿态估计。

论文中定义了一种共享空间(归一化对象坐标空间):NOCS(一个包含在单位立方体中的三维空间,将对角线设置为1,保证对象收缩在单位立方体中)如图,所有对象都包含在一个公共的规范化空间中,一个类别中的所有实例享有一个共同的参考框架。

类级别的目标6D姿态与尺寸估计:首先6D姿态是指对物体3D位置与3D方向的估计。(3个自由度定位置,三个自由度定旋转方向),其中方向的表示方法主要有三种,欧拉角,旋转矩阵,四元数。类级别的6D姿态估计是指对一个未见过的目标对象进行估计,但是这个对象属于某一类别(如相机),而在之前的训练中训练样本含有相机,那么便可以对该目标对象进行估计。

NOCS map:通过训练一个CNN预测一个彩色编码的NOCS目标的的二维透视投影(上图左下角),NOCS map能提供在规范空间的物体的外形和尺寸。

网络结构如下:网络以单张包含多个对象的RGB图像和对应的depth图作为输入,使用CNN来预测对象的类标签、掩码和NOCS map。然后利用NOCS map和深度图利用位姿拟合的方法来估计物体的完整6D姿态和尺寸。

根据NOCS map可以得到一个缩放的目标三维点云,通过instance Mask和输入的深度图也可以得到三维点云表示,对比两个三维点云结果可以估计两个变换之间的缩放,平移与旋转关系。

论文在Mask R-CNN的基础上加入三个NOCS map head结构用于预测NOCS map的x,y,z坐标。该结构如图:

 

2.Learning Canonical Shape Space for Category-Level 6D Object Pose and Size Estimation

该网络结构如下:

主要由四个部分组成,分别是(1)目标检测与裁剪,(2)CASS学习和视图分解的RGBD嵌入,(3)姿态相关特征提取,(4)姿态与尺寸估计。接下来具体解释各部分作用:

(1)预处理阶段(左)用于生成对感兴趣对象的图像裁剪和 point patch,并将此作为输入传到主网络(右边三部分)进行处理。

(2)CASS(Canonical Shape Space规范形空间),首先学习CASS,将shapeNet中的3D模型缩放到单元盒中,采样生成点云,记为X,利用X来训练以FoldingNet为骨干的VAE。FoldingNet是一个基于点的自动编码器,能够学习强大的3D形状表示。它由一个基于图形的编码器和一个基于折叠的解码器组成。编码器对输入点云的k-NN图进行特征学习,基于学习到的特征,解码器扭曲一个固定的2D网格以匹配输入点云的形状。通过在编码器和解码器之间增加采样层,将FoldingNet变成了VAE。习得的后验分布z~ p(z|X)模拟了典型形状的空间。在学习了CASS之后,下一个任务是将任意视图下的RGBD图像投影到空间中,文中提出了一种联合嵌入的方法,文中学习了VAE,它有两个编码器将RGBD图像和3D点云映射到共享的潜在空间。3D编码器采用FoldingNet编码器,RGBD编码器采用密集融合架构。关键设计是,尽管有不同的网络架构,但这两个编码器使用混合训练批和共享训练梯度进行训练。后者意味着为任一模态计算的梯度被反向传播以调优两个编码器。RGBD编码器分解图像视图,得到姿态无关的RGBD特征(CASS代码)。然而,3D编码器并不分解物体的姿态或大小。这是因为3D编码器的输入和输出都是位姿和尺寸标准化的。它只是将标准化形状映射到标准形状空间,而不处理其姿态或大小。

(3)文中设计了两种分别基于RGB和深度图像的光度和几何特征提取网络。在网络中,这些特征通过与姿态相关的特征进行比较来估计姿态和尺寸。首先是光度特征提取:输入图像包含感兴趣对象时,通过训练一个全卷积网络,将颜色信息处理成颜色特征F。图像嵌入网络是一个自动编码器体系结构,它将大小为H×W×3的图像映射到像素特征映射H×W×N。每个像素都有一个a维向量。然后对所有像素特征进行平均池化,获得完整图像的N维特征。几何特征提取:给定相应的point patch,利用基于点的cnn来提取N个模糊的几何特征。

(4)姿态与尺寸估计部分包含loss函数的设计。将CASS学习与RGBD嵌入得到的特征F1,颜色(光度)特征F2,以及几何特征F3拼接为一个向量(长度3N),然后将其输入到具有1D卷积的CNN中。输出包含一个四元数表示的旋转(q),一个3D平移矢量(t)和一个1D缩放因子(s)。

最后loss函数定义为:

其中带星号的为真值。 

3.Category Level Object Pose Estimation via Neural Analysis-by-Synthesis

        文中将基于梯度的拟合过程与参数化神经图像合成模块相结合,该模块能够隐式地表示整个对象类别的外观、形状和姿态,该方法能够从单个RGB或RGB- D图像恢复对象的3D姿态,从而无需为每个对象实例建立显式CAD模型。

网络结构:

        网络分为训练与推理两个部分:训练:使用来自ShapeNet数据集的合成目标的多视图图像,在VAE框架中对生成器进行训练。我们将已知方向的生成图像与真值图像之间的重构损失与KL散度一起最小化。经过训练,发生器可以产生真实地反映(潜在的)外观和期望的姿态的图像。推断:为了从分割后的真实图像中估计目标的姿态作为输入,我们的方法迭代优化目标的姿态和形状,在保持训练网络的权重不变的情况下,最小化输入和生成图像之间的感知损失。

pose_aware图像生成器的设计:(经过训练的姿势感知图像生成器可以渲染各种形状、外观和姿势的物体)文中提出一个很好的想法:3D空间的平移操作和平面内旋转操作可以使用在2D平面内进行操作,因此不需要学习过多的参数。因此,文中限制网络G3D中只生成具有平面外旋转的图像为:

其余的转换都是用2D图像扭曲操作来实现。 

         为了生成所需姿态(R, T)的图像,首先将平面外旋转Rx,Ry(图中yz好像标反了)应用于3D特征体,然后将特征体的2D投影解码为图像。随后,这幅图像经过由平移和平面旋转得来的2D相似变换,形成最终输出。最后通过将潜在码元注入到三维特征体积生成器dec3d和二维解码器dec2d中,以控制形状和外观的变化。

外观和3D旋转:为了生成不同外形、形状和姿态的物体图像,文中采用了基于3D风格的图像生成网络,如上图。该网络结合了一个3D特征体,通过基于风格的生成器捕捉3D旋转。这使得模型能够从诸如姿势和形状等几何因素中分离出整体外观变化。基于风格的三维图像生成网络主要包括四个步骤:1)生成三维特征体;2)基于姿态的特征体转换;3)将三维特征体投影为二维特征图;4)将特征图解码为预测图像。三维生成和二维生成分别以自适应实例归一化的潜在编码为条件,对形状和外观的方差进行建模。对象的方向控制应用于3D特征体的转换。

平移和2D旋转:2D平面的扭曲操作表达式记为

则完整的操作过程得到最终的图像:

4.Shape Prior Deformation for Categorical 6D Object Pose and Size Estimation

论文主题:从RGB-D图像中恢复未见过物体实例的6D姿态和尺寸。

亮点:提出了shape prior 与 deformation field应用于6D姿态估计。

针对目标:已知类别的未见过对象。

shape prior:根据同一类别的物体(特别是人工生成的物体)往往具有在几何结构上相似的部分,为每个类别的模型学习一个平均形状。首先训练一个自动编码器,然后用该编码器计算每个目标类别的平均潜在嵌入。通过解码器,以获得每个对象类别的平均形状先验。

 网络结构:

主要流程设计:通过mask r-cnn对输入的RGB图像进行实例分割,根据mask的包围框裁剪出image patch,并通过深度图生成目标物的点云图,将得到的点云图,image patch和得到的shape prior作为网络的输入得到变形场(deformation field),通过此变形场对shape prior变形得到重建的目标物模型的点云,此外,网络还会输出一组对应信息,将从对象实例的观测深度图中获得的点云(observed points)中的每个点与重建模型(reconstructed model)中的点关联起来。该对应集用于将重建模型表示为NOCS坐标。最后,通过将NOCS坐标与由目标物深度图获得的点云图(observed points)进行配准,由此可以估计出目标的6D位姿和尺寸。

 Network结构:左上分支和左下分支分别从实例和形状先验中提取点和全局特征。右上分支估计对应矩阵,右下分支预测变形场。全局特征的交换是网络的关键部分。总体过程:(1)从对象实例中提取特征;(2)从形状先验中提取特征;(3)回归变形场D;(4)估计对应矩阵A。

5.DONet

论文:《DONet: Learning Category-Level 6D Object Pose and Size Estimation from Depth Observation》

该论文提出了一种基于深度信息的类别级6D目标姿态和尺寸估计方法,主要提出了三个方法模块。

网络结构:

 1.网络最初输入一张深度图经过数据预处理阶段得到类别标签以及目标实例的潜在掩码,对掩码深度图的后投影点(经过归一化处理后的)传入 GeoReS模块,同时根据确定的类别标签向3D-OCR模块中输入对应类别的典型模板点。

2.3D-OCR模块:目标是学习类内实例之间的语义形状对应关系,使规范模板形状与观测点对齐。

通过对局部观测的点云与规范模板点云分别进行编码得到形状相关的特征信息,图中Fo与FT,将两个特征向量拼接,结合归一化的局部观测,生成每个点的嵌入形状特征,通过解码器对类模板形状进行重构(图中3D-OCR模块中的解码输出)。该模块的输出隐式的描述了归一化的局部观测点云的方向。用公式可以描述该模块作用如下:

3.GeoReS模块:我自己总结一句话描述该模块的作用就是 根据目标本身的旋转对称关系来恢复当前视角下该目标看不到的部分,实现对目标的三维点云重建。因此原论文中提到模块适用于具有全局对称形状但局部不对称部分的非对称对象。

4.MPDE模块受到二维关键点投票方法的启发,文中将三维目标的中心点作为一个关键点提出通过密集投票实现中心定位的方法。对于GeoReS模块的粗略重建结果上的每一个点稠密地生成到中心点的偏移向量,生成偏移候选集合。中心点集可以大致定位目标对象中心,接下来的逐点密集投票在约束的3D空间中搜索细粒度的潜在偏移量。最后得到预测的目标中心点为:

对于尺寸估计的部分很简单:

文中提到使用合并镜像对称点的方法(GeoReS的作用)要比使用部分观测点的方法精度提高很多。 

至此,姿态估计与尺寸信息都以得到(红色部分为结果)。

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值