Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images(CVPR2016)(1)

论文:https://arxiv.org/pdf/1511.02300.pdf

代码:https://github.com/shurans/DeepSlidingShape

Abstract

我们专注于RGB-D图像中的三维3D对象检测的任务,其目的在于以完整的程度以度量形式生成对象的3D边界框。 我们介绍了深度滑动形状Deep Sliding Shapes,这是一种3D ConvNet方法,它将RGB-D图像中的3D体积场景作为输入并输出3D对象边界框。 在我们的方法中,我们首先提出了3D区域提议网络(RPN)来学习几何形状的对象性objectness和联合对象识别网络(ORN)joint Object Recognition Network (ORN)来提取3D中的几何特征和2D中的颜色特征。 特别是,我们通过训练两个不同比例的amodal RPN和ORN来回归3D边界框来处理各种大小的物体。实验表明,我们的算法在mAP中优于现有技术 13.8,比原始滑动形状快200

 

1 Introduction

典型的物体检测可以预测物体的类别以及物体可见部分the visible part在图像平面上的2D边界框。虽然这种类型的结果对于某些任务(例如对象检索)是有用的,但对于在真实3D世界中进行任何进一步推理是相当不可取的。在本文中,我们专注于RGB-D图像中的三维物体检测任务,其目的是产生一个物体的3D边界框,无论截断或遮挡 truncation or occlusion,都能在物体的全部范围内提供真实世界的尺寸。例如,在机器人应用的感知操纵循环中,这种识别更有用。但为添加新维度(深度Depth)用来预测会显着扩大搜索空间,并使任务更具挑战性。

 

可靠且价格合理的RGB-D传感器(例如,Microsoft Kinect)的到来使我们有机会来实现这一关键任务。然而,将二维检测结果简单地转换 naively converting为3D并不能很好地工作(见表3和[10])。为了充分利用深度信息,提出了滑动形状[25]来在3D空间中滑动3D检测窗口。虽然它受到手工制作功能的限制,但这种方法自然地制定了3D任务。

或者,深度RCNN [10]采用2D方法:通过将深度视为彩色图像的额外通道来检测2D图像平面中的对象,然后使用ICP将3D模型拟合到2D检测窗口内的点对齐。鉴于问题的现有2D和3D方法,很自然地会问:哪种表示更适合3D模拟对象检测,2D或3D?目前,以2D为中心的深度RCNN优于以3D为中心的滑动形状。但也许深度RCNN的优势来自于使用精心设计的深度网络预先训练过的ImageNet,而不是它的2D表示。是否有可能通过利用3D深度学习获得优雅但更强大的3D方法?

在本文中,我们介绍了Deep Sliding Shapes,这是一个完整的3D方法,用于学习使用3D卷积神经网络(ConvNets)的对象建议和分类器object proposals and classifiers。我们第一个提出了3D区域提议网络(RPN),它将3D体积场景作为输入并输出3D对象提议(图1)。它旨在为不同尺度的物体以两种不同的比例生成整个物体的建议。我们第一个还提出了联合目标识别网络(PRN),它使用2D ConvNet从颜色中提取图像特征,以及3D ConvNet从深度中提取几何特征(图2)。该网络也是第一个直接从3D提案中回归对象的3D边界框的网络。大量实验表明,我们的3DConvNets可以比2D表示(例如Depth-RCNN中的HHA)学习更强大的编码几何形状(表3)的表示。我们的算法也比Depth-RCNN和原始的Sliding Shapes快得多,因为它只需要在测试时在GPU中进行一次ConvNets前向传递。

 

我们的设计充分利用了3D的优势。因此,我们的算法自然受益于以下五个方面:首先,我们可以预测3D边界框,而无需从额外的CAD数据??拟合模型的额外步骤。这样可以简化 pipeline,加快速度并提高性能,因为网络可以直接优化最终目标。其次,由于遮挡,视野受限以及由于投影导致的大尺寸变化,因此在2D中建模生成和识别非常困难。但在3D中,由于来自同一类别的物体通常具有相似的物理尺寸,并且遮挡物的偏差落在窗外the distraction from occluders falls outside the window,我们的3D滑动窗口建议生成可以自然地支持amodal检测。第三,通过在3D中表现形状,我们的ConvNet有机会在更好的对齐空间中学习有意义的3D形状特征。第四,在RPN中,感受野自然地以现实世界的尺度表示,这指导了我们的结构设计。最后,我们可以通过使用Manhattan world假设来定义边界框方向,从而利用简单的3D上下文先验。

 

虽然机会令人鼓舞,但3D物体检测也存在一些独特的挑战。首先,3D体积表示需要更多的内存和计算。为了解决这个问题,我们建议将3D区域提议网络与作为输入的低分辨率整个场景分开,并为每个对象分配具有高分辨率输入的对象识别网络。其次,3D物理对象边界框的大小比2D像素为基础的边界框(由于摄影和数据集偏差due to photography and dataset bias)[16]更复杂。为了解决这个问题issue,我们提出了一个多尺度的区域建议网络,它使用不同的感受域来预测不同大小的建议。第三,虽然深度的几何形状非常有用,但它们的信号频率通常低于彩色图像中的纹理信号。为了解决这个问题,我们提出了一种简单但有原则的方法来联合合并jointly incorporate来自通过投影3D区域提议而得到的2D图像补丁的颜色信息。

 

1.1 Related works

Deep ConvNets彻底改变了基于2D图像的对象检测。 RCNN [8],快速RCNN [7]和更快的RCNN [18]是最成功的现有技术的三次iterations。 除了仅预测对象的可见部分之外,[14]进一步扩展RCNN以估计整个对象的amodal框。 但他们的结果是二维的,只估计物体的高度,而我们想要desire一个三维的模式盒子。 受到2D成功的启发,该文章提出了一个集成的3D检测管道,可以使用3D ConvNets为RGB-D图像利用3D几何线索。

 

RGB-D图像中的2D物体检测器RGB-D图像的2D物体检测方法将深度视为附加外部通道添加RGB图像,使用手工制作的特征[9],稀疏编码[2,3] ],或递归神经网络[23]。 Depth-RCNN [11,10]是第一个在RGB-D图像上使用深度ConvNets的物体检测器。 他们通过将深度图编码为附加到彩色图像的三个额外通道(具有地心编码Geocentric Encoding:视差,高度和角度)来扩展用于基于颜色的对象检测的RCNN框架[8]。 [10]通过将3D CAD模型与识别结果对齐,扩展了Depth-RCNN以生成3D边界框。 [12]通过交叉模型监督转移进一步改善了结果。 对于3D CAD模型分类 3D CAD model classification,[26]和[20]采用基于视图的深度学习方法,将3D形状渲染为rendering2D图像。

 

3D物体检测滑动形状Sliding Shapes[25]是一个3D物体探测器,它以3D形式运行滑动窗口,直接对每个3D窗口进行分类。 但是,该算法使用手工制作的功能,并且该算法使用许多示例分类器,因此它非常慢。 最近,[32]还提出了RGB-D图像上的 the Clouds of Oriented Gradients feature。 在本文中,我们希望通过3D ConvNets改进这些手工制作的特征代表,这些代表可以从数据中学习强大的3D和颜色特征。

3D特征学习HMP3D [15]引入了一种分层稀疏编码技术,用于RGB-D图像和3D点云数据的无监督学习特征。该特征在合成CAD数据集上进行训练,并在RGB-D视频中的场景标记任务上进行测试。相比之下,我们需要使用深度学习技术来学习3D特征的有监督方式,这些技术被证明对基于图像的特征学习更有效。

3D深度学习3D ShapeNets [29]引入了用于建模3D形状的3D深度学习,并证明了可以从大量3D数据中学习强大的3D特征。最近的一些着作[17,1,5,13]也提取了用于CAD模型检索和分类的深度学习功能。虽然这些作品令人鼓舞,但它们都没有专注于RGB-D图像中的3D物体检测

区域提案对于2D对象提议,先前的方法[27,1,11]主要基于合并分段结果。最近,更快的RCNN [18]引入了一种更高效,更有效的基于ConvNet的配方,激励我们使用ConvNets学习3D对象。对于3D对象提议,[4]介绍了一种MRF公式,其中包含针对街景中几个对象类别的手工制作的特征。我们希望使用ConvNets从数据中学习一般场景的3D对象。

 

1.2 Encoding 3D Representation

我们需要回答3D深度学习的第一个问题是:如何编码3D空间以呈现给ConvNets?对于彩色图像,输入自然是像素颜色的2D阵列。对于深度图,深度RCNN [10,11]提出将深度编码为具有三个通道的2D彩色图像。虽然它有利于将预先训练好的ConvNets用于彩色图像[12],但我们希望能够在3D中自然地编码几何形状,从而保留空间局部性。此外,与使用手工制作的3D特征[5,31]的方法相比,我们希望能够将3D几何体编码 encodes the 3D geometry为尽可能原始的表示,并让ConvNets从原始数据中学习最具辨别力的特征。

 

为了编码用于识别的3D空间,我们建议采用方向截断的符号距离函数(TSDF“截断有符号距离函数”(truncated signed distance function,简称TSDF))。给定3D空间,我们将其划分为等间距的3D体素网格。每个体素中的值被定义为体素中心与来自输入深度图的表面之间的最短距离。图3显示了一些例子。为了对表面点的方向进行编码,而不是单个距离值,我们提出了一个方向性TSDF,用于在每个体素中存储三维向量[dx,dy,dz],以记录三个方向到最近的表面点的距离。该值被剪切为2β,其中β是每个维度中的网格大小。值的符号表示单元格是在表面的前面还是后面。

为了进一步加速TSDF计算,采用一个近似,我们也可以使用投影TSDF而不是精确的TSDF,其中最近的点仅在相机的视线上找到。投影TSDF的计算速度更快,但与准确的TSDF识别相比,在经验上 empirically更差(见表2)。我们还尝试了其他编码,我们发现所提出的方向性TSDF优于所有其他替代方案(见表2)。请注意,我们还可以通过将RGB值附加到每个体素来对此3D体积表示中的颜色进行编码[28]。

 

未完,待续!!请见Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images(CVPR2016)(2)

 

 

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 《电机系统滑模控制》这本书的第6章主要讲述了滑模变结构控制方法在电机系统中的应用。本章首先介绍了滑模控制的基本原理和特点,然后详细探讨了滑模控制在电机系统中的实施方法和优化技术。 在第6章的开头,作者简要介绍了滑模控制的核心思想,即通过引入一个滑动面,使系统状态从一个运动区域转移到另一个运动区域,从而实现控制目标。接着,作者详细讨论了滑模表面的设计和选择原则,以及如何通过设计合适的滑模控制律来实现系统的稳定和性能优化。 在本章的后部分,作者将滑模控制应用于具体的电机系统,包括直流电机控制、交流电机控制以及步进电机控制等。对于每个具体的电机系统,作者详细介绍了滑模控制器的设计方法和参数选择原则。此外,还讨论了考虑到实际工程应用中的限制条件,如电机不确定性、摩擦力等因素的滑模控制器设计方法。 最后,本章还提供了一些案例研究和仿真实验,以验证滑模控制在电机系统中的有效性和鲁棒性。这些案例研究涵盖了不同类型的电机系统,不同的控制目标和实际应用环境下的控制问题。 总的来说,第6章《电机系统滑模控制》是本书中的重要章节,它系统地介绍了滑模控制在电机系统中的理论基础、实施方法和优化技术。通过学习本章内容,读者可以深入了解滑模控制的原理和应用,为解决电机系统控制问题提供有力的工具和方法。 ### 回答2: 这本书《电动机械系统的滑模控制》的第6章主要讲述了滑模控制在电动机械系统中的应用。 第6章首先介绍了电动机械系统的特点和模型,包括电动机的动态特性、力学特性以及控制系统中所涉及的各种元件和参数。接着,章节详细介绍了滑模控制理论的基本原理和基本概念,解释了滑模控制对于电动机械系统的优势和适用性。 在本章中,还介绍了滑模控制器的设计过程和实现方法。书中详细讲解了滑模控制器的基本结构和工作原理,并给出了一些针对电动机械系统的滑模控制器设计算法。此外,本章还介绍了滑模控制器的参数选择和调整方法,帮助读者更好地理解和应用滑模控制。 在第6章的后半部分,书中还讨论了滑模控制在电动机械系统中的一些特殊应用,包括扭矩和速度控制、位置控制以及力矩控制等。作者通过具体的案例和仿真实验,阐述了滑模控制对于电动机械系统在不同控制任务中的应用效果,并对其在工业领域中的发展前景进行了展望。 综上所述,第6章主要介绍了滑模控制在电动机械系统中的原理、设计和应用。通过本章内容的学习,读者可以了解滑模控制的基本概念和原理,并能够应用滑模控制方法解决电动机械系统中的控制问题。 ### 回答3: 《滑模控制在电机系统中》这本书的第6章主要讲述了滑模控制在电机系统中的应用。滑模控制是一种基于滑模面的控制方法,通过调节控制器的参数和输入信号,实现系统输出状态滑动到所定义的滑模面上,从而实现对系统精确控制的目标。 第6章首先介绍了滑模控制在电机系统中的基本原理和主要概念。然后,详细解释了传统的滑模控制器设计方法和技术,包括滑模面的选择、滑模控制器的设计和参数调节方法等。接着,介绍了一些经典的滑模控制器结构,如单输入单输出(SISO)系统的滑模控制器、多输入多输出(MIMO)系统的滑模控制器等,以及它们在电机系统中的应用。 在第6章的后半部分,探讨了滑模观测器的应用。滑模观测器是一种用于估计系统状态的辅助控制器,通过测量系统输出和输入信号的差异来实时估计系统的状态,以实现滑模控制。本章介绍了滑模观测器的基本原理、结构和设计方法,并探讨了滑模观测器在电机系统中的应用,例如电机速度估计、位置估计等。 最后,第6章还提供了一些拓展内容,介绍了滑模控制在一些特殊电机系统中的应用,如步进电机、无刷直流电机等,并介绍了一些滑模控制的优化方法和研究方向。 总的来说,第6章是关于滑模控制在电机系统中的应用的详细介绍,涵盖了滑模控制器和滑模观测器的基本原理、设计方法,以及它们在电机系统中的具体应用。该章节对于电机控制领域的研究人员和工程师具有重要的参考价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值