Multiview RGB-D Dataset for Object Instance Detection

最新推荐文章于 2023-04-17 12:08:39 发布

h1418792278

最新推荐文章于 2023-04-17 12:08:39 发布

阅读量2.3k

点赞数

文章标签： Multiview RGB-D Data Object Instance Dete

大致译文，可以看看，参考一下。转载请说明

摘要

基于9个厨房场景，本文提供了一个新的多视角RGB-D数据集。场景中的物体有一部分来自于BigBird数据集。Scenes被密集采取，使用bounding boxes和3D point cloud对object进行注释。本文提供了新的检测和识别方法，由两部分组成：1）多视角3D提议生成方法 2）对基于AlexNet计算our proposals得分的几种识别方法基准进行了发展，之前的要么是在crops of dataset要么是在synthetically composited training images上面训练数据。我们同WRGB-D数据集比较，在object proposals和一个detection baseline的效果。我们Kitchen scenes dataset对于物体检测和识别更具有挑战性。

绪论

The problem of detection and recognition of common household objects in realistic environments is one of the key enabling factors for service robotics.使用微软Kinect传感器得到的数据集有NYUD-V2、WRGB-D和BigBird。NYUD-V2提供了在多样化场景中的大量数据。然而，它缺少多视角的数据，没有侧重可手抓取的对象上面。WRGB-D场景数据集侧重了小物体，但是当它涉及到对象的数量和在场景中的杂乱的水平是有限的。我们引入一个新的数据集来解决这些缺点，通过使用来自BigBird的对象，并创建在可用对象数量，杂乱和视点变化方面更现实的场景，而我们的重点是检测手持对象。

本文的贡献：

1) 数据集由几个厨房台面场景密集取样得到，提供2D和3D的注释。数据集的复杂度与WRGB-D在object detection.上做对比，证明其更加复杂。

2) 只是用3D重构场景。我们比较与现有提案生成方法的结果，并展示多视图方法比3D单视图的更加有效。

3) 我们利用我们的建议在Kitchen场景数据集上建立几个检测基线

相关工作

object detection只在data或者RGB-D上面被广泛研究。在杂乱场景中开发用于特征计算和分类器评估的传统有效方法有DPM。物体检测的常用且有效的方法：利用局部特征和模型参考图像与场景之间的对应关系。对象的检测与识别系统需要处理有纹理的家居物体，利用局部描述符的区别性。缺点是处理非纹理对象时效果不好，这就导致需要捕获对象形状属性的方法来替代（例如形状上下文）。

传统滑窗搜索的空间太大，最近的工作致力于生成类别无关的object proposals。代表工作有Edge boxes,BING和Selective search 。在RGB-D数据中，Mishra et al使用对象边界来指导对固定点的检测，这致力于对象的展示。Karpathy et al基于对象性得分通过对3D网格段进行排名来执行对象发现。我们的3D多视图方法消除了场景中的大平面，以方便对小对象的分割。基于CNN的proposal generation methods被介绍了，例如：Multibox [29], the DeepMask [21], and the Region Proposal Network (RPN) in [23].这些方法对他们训练的用来检测的数据集，执行得很好，但是他们需要重新训练以便推广到新的设置。

由于深度学习方法的出现，对于特定识别任务的特征的选择已经被用于训练或微调深度CNN的各种替代或者适于各种任务的新架构和优化功能的设计所取代。早期采用CNNs的方法：R-CNN使用建议的方法生成bounding boxs，使用network提取特征，然后再训练SVM分类器，把每一个bounding box归到不同的类别中去。缺点：需要大量的标签数据。

近期的YOLO，SSD和faster RCNN丢掉了无监督的proposal generation techniques（例如区域生成网络），训练端到端的网络去预测bounding boxes，还有每个对象类别的分类分数。缺点：它们需要大量的边界框标记的训练数据。

在RGB-D table-top settings，带有标记的对象实例的训练集的可用性受到限制。此外，现有数据集要么被捕获在非现实中（Willow Garage [2]），要么不专注于小对象（NYU-V2 [25]，SUN RGB-D [28]），或者它们不提供一大群杂乱的对象（WRGB-D场景[15]）。我们的厨房场景数据集解决这些缺点，专注于小的可手持的对象，同时，增加场景中的复杂度和视角的多变性。最近的作品，如Held et al。 [12]已经试图解决训练数据的限制，在辅助数据集上，提出了预训练AlexNet [14]的策略，在训练单个图像和执行对象实例识别之前。然而，考虑的问题是对象识别，而不是在杂乱的场景中的检测。

下面我们先简单讨论our Kitchen scenes dataset，然后，我们描述了3D多视图建议生成策略及其对3D单视图和2D proposals的评估。最后，我们描述了利用3D多视图proposals的对象检测方法，并在新的厨房场景数据集上建立几个对象检测基线。

厨房场景数据集

9个真实厨房场景视频，侧重可机器人手持或者夹具的日常小物体。对象来自于Big Bird实例数据集和日常易见物体。使用Kinect V2 RGB-D sensor（resolution 1920 * 1080）。与结构光传感器相比，它使用飞行时间相机进行深度估计以获得更准确的结果。人手拿着Kinect sensor来采集scenes，这样就允许采集到的

Objects来自于不同的视角和尺度。将物体放置在几个不同的位置，例如在架子上，在器具的顶部上和在厨房柜台上，同时视野中有许多杂物。我们利用开源的Iai Kinect 2库[33]，用于校准Kinect相机，捕获数据，以及将深度通道与RGB图像对齐。

相机姿势估计：

视频帧首先寄存在RGB images中，使用具有运动的增量结构（SfM）的软件COLMAP。COLMAP通过一些images获得相机的位姿，因为寄存的images和场景的稀疏结构相匹配。a set of points P = {P_j∈R³ | j = 1, 2,···M }where each P_i is of the form P_i = [X_i; Y_i; Z_i]。这种注册过程产生场景的稀疏重建使用各种尺度。为了确定尺度参数并获得密集的3D点云，我们使用与RGB-D帧相关联的深度通道。由COLMAP构成的相机poses用于将从每个RGB-D帧得到的3D点投影到参考坐标系。3D点云的深度通道的格式。To determine the scale between Zi and zi values before projecting into the world coordinate, we use the correspondences between Pi’s and pi’s。为了可靠的尺度估计，我们只考虑3D点其Z_i值在第10和第90百分位数之间的点。Z_i /z_i的中间值作为尺度因子α。然后使用比例因子将深度图登记到公共参考系。

场景标记：我们利用公开的MeshLab [1]工具中的一个功能来选择在注册的3D点云中的点组，每一组点云对应于对象的3D分割。然后，我们从场景中裁剪这些分割，并将它们投影在它们可见的帧上。投影点然后用于在对象上定义边界框。遵循这一策略，我们能够获得3D分割级别注释以及2D边界框。

3D Multi-view Proposal Generation：

我们采用的目标检测策略依赖于图像建议的生成，随后是特征提取和分类。我们遵循一个简单的算法从场景的密集点云生成3D对象建议，并证明它们优于对象建议从单个RGB-D帧生成，并且与基于2D图像的RGB提议生成方法相当。进而，3D多视图对象建议可以潜在地在诸如用于机器人抓取的姿势估计的任务中更有用，并且在对象被遮挡时在场景中可以更可靠。我们的算法从去除大的平面表面开始，然后是剩余点的平均移位聚类[7]，最后用长方体拟合策略去除异常点。

为了得到我们想要的目标，我们首先从场景中删除大的支撑表面。这一步删除了大量我们不需要的区域，它导致在3D空间中中断对象区域。利用基于3D霍夫变换的平面检测算法来检测3D场景中的所有平面表面。检测到的平面按照它们的大小排序，并且它们的一定百分比被移除。需要删除的平面的确切数量在不同场景中有所不同。因此，产生场景的多个不同的点云，每个对应移除不同数目的平面。具体来说，我们删除50％，33％，25％，15％和10％创建五个新的3D点云。平面拟合和滤波之后是每个新点云上的均值移位聚类[7]。由于平均偏移是基于密度的算法它更适用于我们的设置比其他方法，因为3D中的对象往往有紧凑的表示。平均位移聚类只需要一个半径参数。聚类被应用若干次，每次对于半径具有不同的值（范围从0.3到1.0），以便捕获各种尺度的对象。

我们的算法的最后一步是删除异常值，在所得到的聚类中的点以获得紧凑的3D建议。类似于[17]，我们使用直接搜索，并实现这一点，找到最紧凑的3D立方体，每个群集包括至少90％的点。我们简化了问题，不考虑任何旋转的长方体，只使用六个自由度，三个用于移动原点，三个用于缩放沿着每个轴的长方体的范围。基于体积与包含点数的比率来选择最佳立方体。最佳拟合长方体内的3D点包括对象建议。

评估：由于绝大多数对象检测算法在图像空间中操作，因此3D proposals也在图像上进行评估。我们将我们的多视图3D建议与单视图3D建议生成算法进行比较，该算法使用来自单个RGB-D帧的3D点云而不是场景的密集点云来计算对象建议。为了公平的比较，遵循同样的管道来生成单视图提议。我们还将我们的3D提议与两种广泛使用的提议生成算法，选择性搜索[31]和BING [5]以及CNN方法和R-CNN RPN [23]。表2示出了对于IoU重叠阈值为0.5的recall（Recall：所有正确的信息或者相关的信息(wanted)被检测出来的比例。）结果，而图6示出了给定IoU重叠阈值范围对应的recall。对于所有的方法，每个图像大约可以得到3000个候选区域。性能报告在11 Big Bird对象[26]，已经包括在我们的场景当中。表2还报告了算法的平均性能，其中不考虑可乐瓶物体。因为我们已经观察到，由于Kinect传感器的限制，我们的3D建议对透明对象的性能不佳。

多视图方法胜过单视图方法很多的地方：因为后者不能恢复严重遮挡或位于从某个视点不可见的表面上的对象。此外，RPN显示比多视图方法低11.8％的调用，这意味着微调网络可能是实现可比结果所必需的。与选择性搜索相比，多视角有较好的recall ，提高了1.5％的小幅度，其中不考虑可乐瓶（因为透明）。图5显示出选择性搜索不到的情况，然而3D多视图的方法成功地本地化对象。总体上，BING似乎优于其他策略，然而，随着IoU重叠阈值增加，其性能迅速下降，如图6所示。这表明BING的建议与对象的重叠不良，并且它们可能不适合用于分类。

我们还评估了一个提案生成方法WRGB-D场景数据集[15]，这是一种广泛应用对象检测，重点是日常家庭对象。它包括14个视频场景，其中对象放置在单个支撑表面上，具有少量的杂物。支撑表面通常覆盖每个框架的大百分比，并且可以容易地从图像中分割。另一方面，我们的厨房场景数据集包含更真实的环境，物体放置在几个支撑表面上，例如计数器，架子，桌子和微波炉。支撑表面经常闭塞或部分可见。

为了与WRGB-D场景数据集进行比较，我们测试3D单视图建议生成算法与其在厨房场景数据集上的性能的性能。从表3中可以看出，对于WRGB-D数据集，该算法实现了与在我们的厨房场景数据集中的召回结果相比显着更高的召回结果，每个图像具有少得多的生成图像（用于目标检测）。注意，在WRGB-D的情况下，当计算平均移位聚类时，我们仅使用单个半径值。这个结果对于WRGB-D情况并不奇怪，因为该算法在绝大多数帧中检测支持表面，并且聚类由于低杂物而成功地对对象进行分段。图7显示了从两个数据集的图像生成提案的示例。

Object Detection

第4节中的对象建议是类别不可知的，因此需要进一步处理以确定对象类别。为了达到这个目标，我们在建议的厨房场景数据集上为对象检测任务建立四个基线。基线在使用的训练数据的方法或类型方面不同。

1.Turntable：我们使用Big Bird数据集[26]提供的转盘图像，它描述了一个单一对象，用于训练CNN的干净背景。

2. Turntable Background：我们使用Big Bird数据集[26]提供的转盘图像叠加在从厨房场景随机抽取的背景上。

3. CNN Scene Folds：我们使用来自数据集的折叠图像以及感兴趣对象的边界框作为训练示例。我们遵循物体检测的最新趋势，并为我们的三个基线训练卷积神经网络（CNN）。

4. HMP Scene Folds：除了三个基线，我们遵循层次匹配的非CNN路由追求（HMP）第四基线[3]。

Turntable：我们使用的图像来自BigBird数据集[26]，满足单个object放置在一个干净的背景下。我们对这些图像进行子采样，图像中的object来自于60个视角。从每个图像的随机截取5个图像以增加训练集的多变性。对于背景类别，我们从NYUD-V2数据集的厨房场景中随机抽取样本[25]。生成的训练集的大小为3600图像。我们将这些训练图像馈送到卷积神经网络（CNN）用于训练。我们将这个基线称为Turntable。

Turntable Background：第二个基线通过将来自Big Bird数据集的对象掩码图像叠加到来自NYUD-V2厨房场景的随机背景碎片上来扩展Turnable上的训练集[25]。准备这些合成的训练图像以使我们的检测器对于不同的背景更加鲁棒。这些合成贴片的实例显示在图8中。由于传感器的限制，在Big Bird数据集中，objects具有不完全的背景分割掩码。我们训练另一个CNN使用这个训练集包含6525图像，并参考这个基线作为Turntable Background。AlexNet [14]使用Turntable and Turntable Background baselines作为初始化，并且训练10000次迭代，学习率为0.0001。在测试期间，将训练的模型应用在从场景帧上的多视图方法生成的建议。这个实验的动机是评估，当现实的注释数据（放置在现实场景中的对象）不可用时的对象检测性能。

CNN Scene Folds：这个实验研究了从我们的厨房场景图像提取的示例上训练的检测器的性能。我们使用九个场景随机分割来的图像，来得到3个数据集，来交叉验证试验。每个训练集（两个数据集（个人理解））包含来自我们九个场景中的六个的图像。来自剩余三个场景的图像包括在测试数据集中。 3D多视图建议被用于从训练集场景中生成示例。我们遵循R-CNN的方法[11]，并考虑所有与IoU重叠大于0.5的提案，背景作为特定对象的实例。具有小于0.3的IoU的提议被认为是背景。我们忽略具有在这两个范围之间的值的其余建议。我们对每10幅图像进行次抽样，以避免这些图像之间的高度相关，并且最终得到每个集合中大约70000个图像的训练集。在Turntable and Turntable Background baselines的CNN架构之后，我们使用AlexNet进行初始化，并以0.0001的学习速率分别训练30000次迭代。

HMP Scene Folds：我们还将我们的检测与基于非CNN架构的特征生成方法进行比较。我们选择了层次匹配追踪（HMP）方法，该方法用于类似于我们的厨房场景数据集环境的检测，标记和分割对象的上下文[15， 3]。HMP是一种稀疏编码技术，从训练图像以无监督的方式学习特征。我们使用公开可用的实现在我们的3-fold交叉验证实验中应用HMP由作者提供[3]。在每个fold（一个数据集）中，我们从灰度和RGB通道中学习了字典，图像来自于训练集（training fold）。学习的字典用于提取特征，即，补丁的稀疏码，然后将它们连接在一起。第一和第二层中的字典大小分别为75和150。我们分别使用5x5和4x4的片大小来学习这两层中的字典。基于训练集的特征来训练线性SVM。

讨论：所有基线的检测结果如表4所示。CNN场景folds在平均平均精度（mAP）方面优于下一个最佳基线19.2％，而HMP场景 Folds and Turntable产生的性能最低。很明显，实验训练导致更好的执行检测器，但是，这些类型的培训数据通常更难获取。关于Turntable and Turntable Background baselines，我们注意到包括具有随机背景的实例使mAP增加2.4％。性能的这种提高表明，Turntable背景对于检测新的背景中的对象更加鲁棒。然而，这种增加很小，这表明可能需要比简单随机选择背景更复杂的方法来实现性能的显着增加。Held等人[12]在WRGB-D场景数据集[16]上的实验上取得了类似的性能，他们还在对随机背景叠加的turnable图像上进行了训练。然而，他们的实验和我们之间有三个差异。首先，他们从与数据集提供的测试集相同的环境中采样背景。第二，他们最初在Big Bird数据集上调整他们的模型，而他们只使用WRGB-D数据集[16]中的每个对象的一个训练示例。最后，他们使用地面实况注释通过裁剪来自场景的对象来评估识别任务，而我们利用我们的建议算法来执行检测。此外，我们调查在WRGB-D场景数据集的Turnable基线的性能[15]。我们对数据集中提供的Turnable图像进行了采样，以创建场景中可用的五个对象类别的20500个示例的训练集。我们再次初始化与AlexNet和训练10000次迭代，学习率为0.0001。对于检测，我们使用在该数据集上工作得很好的单视图建议（见表3）。结果显示在表5中。值得注意的是，当前基线在该数据集中实现了高性能，而在厨房场景数据集中执行效果非常差。

我们展示了补充材料中检测基线的定性结果。

6.结论

我们提出了一个新的RGB-D多视图数据集来对目标实例检测和识别，识别物体为现实房子中常见的物体。该数据集用于证明新颖的3D多视图对象建议方法针对3D单视图方法的有效性，同时实现与建立的基于图像的建议方法可比较的结果。生成的建议进一步用于建立和比较数据集上的几个对象检测的方法。这些包括基于深度学习的方法和非深度学习的方法。毫无疑问，基于CNN的策略的性能优于先前使用的方法。此外，通过对来自厨房数据集的不同folds进行训练和测试来实现最佳性能。注意，当用于训练的数据集不包含在测试中发现的背景类型时，性能显着降低。训练与随机背景。WRGB-D数据集的比较实验显示了相对于新的Kitchens场景数据集的复杂性性质的差异。

h1418792278

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Multiview RGB-D Dataset for Object Instance Detection

大致译文，可以看看，参考一下。转载请说明摘要基于9个厨房场景，本文提供了一个新的多视角RGB-D数据集。场景中的物体有一部分来自于BigBird数据集。Scenes被密集采取，使用bounding boxes和3D point cloud对object进行注释。本文提供了新的检测和识别方法，由两部分组成：1）多视角3D提议生成方法 2）对基于AlexNet计算our proposa
复制链接

扫一扫