Implicit 3D Orientation Learning for 6D Object Detection from RGB Images

从RGB图像中进行6D目标检测的隐式三维方向学习
论文是我自己翻译的,限于本人的水平,不到之处请多包涵
摘要:我们提出了一种基于RGB的实时管道[1],用于物体检测和6D姿态估计。我们新颖的3D方向估计基于去噪自动编码器的变体,该变体使用域随机化在3D模型的模拟视图上训练。
这种所谓的增强自动编码器与现有方法相比具有几个优点:它不需要真实的,带有姿势注释的训练数据,可以推广到各种测试传感器,并且固有地处理对象和视图对称性。它不是学习从输入图像到对象姿势的显式映射,而是提供由潜在空间中的样本定义的对象方向的隐式表示。在T-LESS和LineMOD数据集上的实验表明,我们的方法优于类似的基于模型的方法,并与需要真实姿势注释图像的最新方法竞争。
关键词:6D目标检测·姿态估计·域随机化·自动编码器·合成数据·姿态模糊·对称性
introduction
用于诸如移动机器人操纵和增强现实之类的应用的现代计算机视觉系统的最重要组件之一是可靠且快速的6D物体检测模块。尽管最近的结果非常令人鼓舞[17,15,40,38,12],但尚未提供灵活,通用,强大且快速的解决方案。其原因是多方面的。首先,当前的解决方案对于典型的挑战(例如对象遮挡,不同类型的背景杂乱和环境的动态变化)不够健壮。其次,现有方法通常需要某些对象属性,例如足够的纹理表面结构或不对称形状以避免混淆。最后,当前系统在运行时和它们需要的注释训练数据量方面效率不高。
因此,我们提出了一种直接解决这些问题的新方法。具体地说,我们的方法对单个RGB图像进行操作,这显着增加了可用性,因为不需要深度信息。我们注意到,尽管可以选择性地结合深度图来改进估计。作为第一步,我们应用Single Shot Multibox Detector(SSD)[22],它提供对象边界框和标识符。在由此产生的场景上,我们采用了我们新颖的3D方向估计算法,该算法基于先前训练的深度网络架构。虽然深度网络也用于现有方法,但我们的方法不同之处在于我们没有在训练期间明确地学习3D姿势注释。相反,我们隐式地从渲染的3D模型视图中学习表示。这是通过训练一个广义版本的去噪自动编码器[39]来实现的,我们称之为“增强自动编码器(AAE)”,使用一种新颖的域随机化[36]策略。我们的方法有几个优点:首先,由于训练独立于SO(3)中对象方向的具体表示(例如四元数),我们可以处理由对称视图引起的模糊姿态,因为我们避免了从图像到方向的一对多映射。其次,我们学习专门编码3D方向的表示,同时实现对遮挡,杂乱背景的强大性以及对不同环境和测试传感器的推广。最后,AAE不需要任何真实的姿势注释训练数据。相反,它被训练为以自我监督的方式编码3D模型视图,克服了对大型姿势注释数据集的需要。该方法的示意图如图1所示。

在这里插入图片描述
related work
基于深度的方法(例如使用点对特征(PPF)[38,12])已经在多个数据集上显示出稳健的姿态估计性能,赢得了2017年的SIXD挑战[14]。但是,它们通常依赖于计算上的昂贵的姿势假设评估。此外,现有的深度传感器通常比RGB相机对阳光或镜面物体表面更敏感。
卷积神经网络(CNN)已经彻底改变了RGB图像的二维物体检测[29,22,20]。但是,与2D边界框注释相比,使用完整的6D对象姿势标记真实图像的工作量更大,需要专业知识和复杂的设置[15]。然而,大多数基于学习的姿势估计方法使用真实标记的图像,因此限于姿势注释的数据集。 [35,40,4,28]
因此,一些工作[17,40]已经提出对从3D模型渲染的合成图像进行训练,从而产生具有免费姿势标签的大数据源。然而,对合成数据的幼稚培训通常不会推广到真实的测试图像。因此,主要的挑战是弥合将模拟视图与真实摄像机记录分开的域间隙。
simulation to reality transfer
从合成数据到实际数据的推广有三种主要策略:

对象视图和背景的照片真实渲染显示了对象检测和视点估计等任务的混合泛化性能[26,34,25,30]。它适用于简单的环境,并且如果使用相对少量的真实注释图像联合训练,则表现良好。然而,照片般逼真的建模总是不完美的,需要很多努力。

域适应(DA)[5]指的是利用从源域到目标域的训练数据,其中一小部分标记数据(监督DA)或未标记数据(无监督DA)可用。通过从合成图像生成逼真来训练分类器[33],3D姿态估计器[3]和抓取算法[2],已经为无监督DA部署了生成对抗网络(GAN)。虽然GAN构成了一种有前途的方法,但往往会产生脆弱的训练结果。受监督的DA可以降低对实际注释数据的需求,但不会弃用它。

域随机化(DR)建立在以下假设的基础上:通过在各种半现实设置(增加随机照明条件、背景、饱和度等)中对渲染视图的模型进行训练,它还将推广到真实图像。托宾等人[36]证明了使用CNN进行三维形状检测的域随机化(DR)范式的潜力。Hinterstoisser等人[13]表明,通过随机合成纹理三维模型视图,只训练faster-rcnn[29]的头部网络,它也能很好地概括为真实图像。必须注意的是,它们的渲染几乎是照片真实的,因为纹理化的3D模型具有非常高的质量。最近,Kehl等人[17]首创了一个端到端的CNN,称为“ssd6d”,用于6d目标检测,使用适度的dr策略来利用合成训练数据。作者在改变亮度和对比度的同时,在mscoco背景图像[21]上以随机姿势渲染纹理三维对象重建

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值