Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation学习笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_57322247/article/details/124061699

Abstract

本文的目的是估计RGB-D图像中不可见对象实例的6D姿态和尺寸。与 “实例级” 6D姿势估计任务相反，我们的问题假设在训练或测试时间内没有确切的对象CAD模型可用。为了处理给定类别中的不同和不可见的对象实例，我们引入了归一化对象坐标空间(NOCS)——一个类别中所有可能的对象实例的共享规范表示。然后训练我们的基于区域的神经网络，以直接推断从观察到的像素到该共享对象表示(NOCS)的对应关系以及其他对象信息，如类别标签和实例掩码。这些预测可以与深度图相结合，以联合估计杂乱场景中多个对象的度量6D姿势和维度。为了训练我们的网络，我们提出了一种新的上下文技术来生成大量完全注释的混合现实数据。为了进一步改进我们的模型并评估其在真实数据上的性能，我们还提供了一个带有大量环境和实例变化的完全标注的真实数据集。

Introduction

不幸的是，这些技术(3D场景等)不能在绝大多数对象以前从未见过并且没有已知CAD模型的一般设置中使用。另一方面，类别级3D对象检测方法可以在不需要精确CAD模型的情况下估计对象类别标签和3D边界框。但是，估计的3D边界框依赖于视点，并且不编码对象的精确方向。因此，这两类方法都不能满足需要看不见对象的6D姿势和3个非均匀比例参数(编码维度) 的应用的要求。

在本文中，我们的目标是通过提出第一种方法来弥合这两类方法之间的差距，我们所知道的第一种方法是对多个对象的类别级6D姿势和大小进行估计——这是一个新对象实例的挑战性问题。由于我们不能对看不见的对象使用CAD模型，因此第一个挑战是找到一种表示法，允许为特定类别中的不同对象定义6D姿势和大小。 第二个挑战是无法获得用于培训和测试的大规模数据集。 像SUN RGB-D或NYU v2这样的数据集缺少精确的6D姿势和大小的注释，或者不包含桌级对象类别–这正是桌面或桌面操作任务中出现的对象类型，了解6D姿势和大小将对此很有用。

为了解决表示挑战，我们将问题描述为在共享对象描述空间中寻找对象像素与归一化坐标之间的对应关系(参见第3节)。我们定义了一个共享空间，称为归一化对象坐标空间(NOCS)，其中所有对象都包含在一个公共的归一化空间中，并且一个范畴中的所有实例都是一致定向的。这支持6D姿势和大小估计，即使对于看不见的对象实例也是如此。我们的方法的核心是卷积神经网络(CNN)，它联合估计单个RGB图像中的对象类、实例掩码和多个对象的NOCS映射。直观地说，NOCS地图通过预测对象像素和NOCS之间的密集对应关系来捕获对象可见部分的归一化形状。我们的CNN通过将NOCS地图描述为像素回归或分类问题来估计NOCS地图。然后将NOCS贴图与深度贴图一起使用，以使用姿势拟合方法来估计对象的完整度量6D姿势和大小。

为了应对数据挑战，我们引入了一种空间上下文感知的混合现实方法来自动生成大量数据(275K训练，25K测试)，这些数据由ShapeNetCore的逼真合成对象与真实桌面场景组成。这种方法允许自动生成具有对象杂乱和完整的地面真实注释的逼真数据，用于类别标签、实例蒙版、NOCS地图、6D姿势和大小。我们还提供了一个真实世界的数据集，用于训练和测试，其中包含18个不同的场景和6个对象类别的6维姿态和大小注释，总共42个独特的实例。据我们所知，我们是针对6D姿势和大小以及3D对象检测任务的最大和最全面的训练和测试数据集。

我们的方法使用来自商品RGB-D传感器的输入，并设计用于处理对称和非对称对象，使其适用于许多应用。图1显示了我们的方法在桌面场景上操作的示例，其中有多个对象在训练期间看不到。总而言之，这项工作的主要贡献是：

归一化对象坐标空间(NOCS)，这是一个统一的共享空间，允许不同但相关的对象具有共同的参考系，从而能够对看不见的对象进行6D姿势和大小估计。
一种CNN，它联合预测RGB图像中多个不可见对象的类标签、实例掩码和NOCS映射。在姿态拟合算法中，我们将NOCS图和深度图结合使用来估计物体的全度量6D位姿和尺寸。
数据集，一种空间上下文感知的混合现实技术，用于在真实图像中合成合成对象，允许我们生成一个大型注释数据集来训练我们的CNN。我们还提供了完全注释的真实世界数据集，用于训练和测试。

Related Work

类别级三维目标检测： 预测物体的6D姿势和大小的挑战之一是在场景中定位它们并找到它们的物理尺寸，这可以被描述为3D检测问题。值得注意的尝试包括，他们将3D体积数据作为输入来直接检测3D中的对象。另一项工作建议首先在2D图像中产生2D对象方框，然后将方案投影到3D空间，以进一步细化最终的3D边界框位置。上述技术达到了令人印象深刻的3D检测率，但不幸的是，仅专注于寻找对象的边界体积，而不预测对象的6D姿势。

实例级6自由度位姿估计： 考虑到它的实际重要性，有大量的工作集中在实例级6D姿势估计上。这里的任务是推断对象的3D位置和3D旋转(无比例)，假设在训练期间这些对象的准确3D CAD模型和大小可用。本领域的技术可大致归类为模板匹配或对象坐标回归技术。模板匹配技术使用诸如迭代最近点之类的算法将3D CAD模型与观察到的3D点云对齐，或者使用手工制作的本地描述符来进一步指导对齐过程。这一系列技术经常受到对象间和对象内闭塞的影响，当我们只对对象进行部分扫描时，这是典型的。基于对象坐标回归的第二类方法旨在回归每个对象像素对应的对象表面位置。这些技术已经成功地用于人体姿势估计、相机重新定位和6D物体姿势估计。

上述两种方法在训练和测试期间都需要对象的准确3D模型。除了在测试时将所有3D CAD模型或学习到的对象坐标回归变量存储在内存中的实际限制之外，捕获非常大的对象阵列的高保真和完整的3D模型是一项具有挑战性的任务。虽然我们的方法是受对象坐标回归技术的启发，但它也与上面的方法有很大的不同，因为我们不再需要测试时对象的完整和高保真的3D CAD模型。

类别4 DOF位姿估计: 已经有一些关于类别级别的姿势估计的工作，但是他们都做了简化的假设。首先，这些算法将旋转预测限制为仅沿重力方向(仅四个自由度)。其次，他们专注于几个房间大小的物体类别(例如，椅子、沙发、床或汽车)，而没有考虑物体的对称性。相反，我们估计了各种手部尺寸的物体的姿势，由于姿势变化较大，这些物体通常比房间尺寸的更大的物体更具挑战性。我们的方法还可以预测完整的6D姿势和大小，而不需要假设物体的重力方向。最后，我们的方法以交互帧速率(每帧0.5s)运行，这明显快于替代方法(对于每帧∼70s，对于每帧25分钟)。

训练数据生成： 训练CNN的一个主要挑战是缺乏足够的类别、实例、姿势、杂乱和光照变化的训练数据。已经有一些旨在构建包含对象标签的真实世界数据集的努力。不幸的是，这些数据集往往相对较小，主要是因为与地面事实注释相关的高成本(时间和金钱)。这一限制是其他作品的动机，这些作品生成的数据完全是合成的，从而允许以较小的成本生成大量经过完美注释的训练数据。为简单起见，所有这些数据集都忽略了在合成数据分布和真实数据分布之间产生事实上的域差距的因素(材料、传感器噪声和照明)的组合。为了缩小这一差距，已经生成了通过在真实背景上渲染虚拟对象来混合真实和合成数据的数据集。虽然背景是逼真的，但渲染的对象在半空中飞行并脱离上下文，这阻止了算法利用重要的上下文线索。
我们引入了一种新的混合现实方法，以上下文感知的方式自动生成由对象和真实背景的合成渲染组成的大量数据，这使其更加现实。这得到了实验的支持，这些实验表明我们的上下文感知训练数据使模型能够更好地概括真实词测试数据。我们还提供了一个真实世界的数据集，以进一步改善学习和评估。

Background and Overview

Category-Level 6D Object Pose and Size Estimation:

我们主要研究对象实例的3个旋转、3个平移和3个比例参数(维度) 的估计问题。此问题的解决方案可以可视化为对象周围的紧密定向边界框(参见图1)。尽管先前未观察到，但这些对象来自已知对象类别(例如，照相机)，其训练样本在训练期间已被观察到。这项任务特别具有挑战性，因为我们不能在测试时使用CAD模型，并且6D姿势对于看不见的对象没有很好的定义。为了克服这一问题，我们提出了一种新的表示方法，它定义了一个共享对象空间，从而能够定义不可见对象的6D姿势和大小。

Normalized Object Coordinate Space (NOCS):

NOCS被定义为包含在单位立方体内的3D空间，即，{x，y，z}∈[0，1]。给定每个类别的已知对象CAD模型的形状集合，我们通过统一缩放对象来标准化它们的大小，以便其紧边界框的对角线具有长度1并在NOCS空间内居中(参见图2)。此外，我们在同一类别中一致地对齐对象中心和方向。我们使用ShapeNetCor中的模型，这些模型已经针对比例、位置和方向进行了规范化。图2显示了相机类别中的规范化形状的示例。我们的表示允许将形状的每个顶点表示为NOCS(图2中的颜色编码)内的元组(x，y，z)。

我们的CNN预测了用颜色编码的NOCS坐标的2D透视投影，即NOCS地图(图2左下角)。有多种方式来解释NOCS图：(1)作为NOCS中观察到的物体部分的形状重建，或 (2)作为密集的像素-NOCS对应。我们的CNN学习对不可见对象的形状预测进行泛化，或者在对大型形状集合进行训练时学习预测对象像素-NOCS的对应关系。 这种表示方法比其他方法(例如，边界框)更稳健，因为即使在对象仅部分可见的情况下，我们也可以进行操作。

Method Overview:

图3说明了我们使用RGB图像和深度图作为输入的方法。CNN仅从RGB图像估计类标签、实例掩码和NOCS映射。我们不使用CNN中的深度图，因为我们希望利用现有的RGB数据集，如不包含深度的COCO，以提高性能。NOCS贴图对规格化空间中对象的形状和大小进行编码。因此，我们可以在稍后阶段使用深度图来提升该归一化空间，并使用稳健的离群值去除和对齐技术来预测完整的度量6D对象的姿势和大小。

我们的CNN建立在Mask R-CNN框架的基础上，除了类别标签和实例掩码之外，还改进了联合预测NOCS地图的功能。第5节包含更多关于我们的改进和可以处理对称对象的新损失函数的详细信息。在培训期间，我们使用通过新的情景感知混合现实(摄像机)方法渲染的地面真实图像(见第4节)。这个大型数据集允许我们在测试时从新类别概括到新实例。为了进一步弥合领域差距，我们还使用了更小的真实世界数据集。

Datasets

在类别级别的3D检测以及6D姿势和大小估计方面的主要挑战是无法获得地面真实数据。虽然已经有几次尝试，如NYU v2和SUNUGB-D，但它们有重要的限制。首先，它们不提供对象的6D姿势，只关注3D边界框。其次，增强现实和机器人等应用程序受益于桌面环境中的手动缩放对象，而当前关注较大对象(如椅子和桌子)的数据集中没有这种对象。最后，这些数据集不包含我们需要的基本事实类型的注释(即NOCS地图)，并且包含有限数量的示例。

Context-Aware Mixed Reality Approach

为了便于手尺度物体生成大量具有地面真实信息的训练数据，我们提出了一种新的上下文感知混合现实(CAMERA) 方法，该方法克服了以往方法的局限性，使数据生成的耗时更少，成本更高。它以上下文感知的方式将真实背景图像与合成渲染的前景对象相结合，即，合成对象被渲染并合成到具有合理的物理位置、照明和比例的真实场景中(参见图4)。这种混合现实的方法使我们能够生成比以前可用的更大数量的训练数据。

Real Scenes: 我们使用31个变化较大的室内场景的真实RGB-D图像作为背景(图4中)。我们的重点是桌面场景，因为大多数室内以人为中心的空间都是由带有手动对象的桌面组成的。总共，我们收集了31个场景的553张图片，其中4张留出进行验证。

Synthetic Objects: 为了在上面的真实场景中渲染看起来逼真的对象，我们从ShapeNetCore中选取了手动比例的对象，手动删除了任何看起来不真实或有拓扑问题的对象。我们总共挑选了6类物品–瓶子、碗、相机、罐子、笔记本电脑和马克杯。我们还创建了一个干扰项类别，由上面未列出的类别(如显示器、电话和吉他)中的对象实例组成。这提高了对我们的主要类别进行预测时的稳健性，即使场景中存在其他对象。我们精选的ShapeNetCore版本由1085个单独的对象实例组成，我们留出184个实例进行验证。

Context-Aware Compositing: 为了提高真实感，我们以上下文感知的方式合成虚拟对象，即，我们将虚拟对象放置在它们自然出现的地方(例如，在支持表面上)，并使用合理的照明。我们使用平面检测算法在真实图像中获得像素级的平面分割。随后，我们在分段平面上随机采样可以放置合成对象的位置和方向。然后我们放置几个虚拟光源来模拟真实的室内照明条件。最后，我们将渲染的图像和真实的图像结合在一起，生成一个具有完美地面真实NOCS地图、遮罩和类别标签的逼真合成。
我们总共渲染了300K合成图像，其中25K留出用于验证。据我们所知，这是用于类别级6D姿势和大小估计的最大数据集。我们的混合现实合成技术是使用Unity游戏引擎实现的，它带有用于平面检测和点采样的定制插件(所有这些插件都将公开发布)。与使用非上下文感知数据相比，使用我们的方法生成的图像看起来可信且逼真，从而提高了泛化能力。

Real-World Data

为了进一步提高和验证我们的算法在具有挑战性的杂波和光照条件下的真实世界性能，我们捕获了两个真实世界数据集：(1)真实世界训练数据集，它补充了我们之前生成的混合现实数据；(2)真实世界测试数据集，用于评估6D姿势和大小估计的性能。我们开发了一种半自动的方法来标注地面真实物体的姿势和大小。图4显示了我们的真实数据示例。

我们使用结构传感器捕获了18个不同真实场景(7个用于训练，5个用于验证，6个用于测试)的8K RGB-D帧(4300帧用于训练，950帧用于验证，2750帧用于测试)[1]。对于每个训练和测试子集，我们使用了6个类别和每个类别3个唯一的实例。对于验证集，我们使用6个类别，每个类别有一个唯一的实例。我们在每个场景中放置5个以上的对象实例来模拟现实世界中的杂乱。对于每个实例，我们使用为此目的开发的RGB-D重建算法获得了干净而准确的3D网格。总体而言，我们的组合数据集包含18个不同的真实场景，42个独特的对象实例，跨越6个类别，使其成为类别级别6D姿势和大小估计的最全面的数据集。

Method

图3显示了我们从RGB-D图像中估计多个以前未见过的对象的6D姿势和大小的方法。CNN预测对象的类别标签、掩码和NOCS地图。然后，我们使用NOCS图和深度图来估计对象的度量6D姿势和大小。

NOCS Map Prediction CNN

我们CNN的目标是纯粹基于RGB图像来估计对象的类标签、实例掩码和NOCS地图。我们建立在基于区域的MASK R-CNN框架上，因为它在2D对象检测和实例分割任务中展示了最先进的性能，是模块化的、灵活的、快速的，并且可以很容易地扩展以预测NOCS地图，如下所述。

NOCS Map Head

MASK R-CNN建立在更快的R-CNN架构之上，由两个模块组成——一个模块用于建议可能包含对象的区域，另一个模块用于检测和分类区域内的对象。此外，它还预测区域内对象的实例遮罩。

我们的主要贡献是向MaskR-CNN添加了3个Head架构，用于预测NOCS地图的x、y、z分量(参见图5)。对于每个建议的感兴趣区域(ROI)，头部的输出大小为28×28×N，其中N是类别的数量，并且每个类别包含该类别中所有检测到的对象的x(或y，z)坐标。与屏蔽头类似，我们在测试过程中先使用对象类别来查找相应的预测通道。在训练期间，在损失函数中只使用来自地面真实对象类别的NOCS地图分量。我们使用ResNet50主干和功能金字塔网络(FPN)。

Regression vs. Classification: 要预测NOCS图，我们可以回归每个像素值，或者通过离散化像素值将其视为分类问题(图5中的(B)表示)。直接回归大概是一项更难的任务，有可能在训练期间引入不稳定。类似地，具有大量类别(例如，B=128,256)的像素分类可能会引入更多的参数，使得训练比直接回归更具挑战性。我们的实验表明，B=32的像素分类比直接回归分类效果更好。

Loss Function: 我们网络的类，盒子和掩模头使用与中描述的相同的损耗功能。对于NOCS地图头，我们使用两个损失函数：用于分类的标准softmax损失函数，以及用于回归的以下soft L1损失函数，这使得学习更加稳健。

其中，y∈R3是地面真实NOCS地图像素值，y∗是预测的NOCS地图像素值，n是ROI内的掩码像素的数量，I和Ip是地面真实和预测的NOCS地图。

Object Symmetry: 许多常见的家用物品(如瓶子)都显示出围绕一条轴的对称性。我们的NOCS表示没有考虑对称性，这导致了某些对象类的较大误差。为了缓解这个问题，我们引入了一种考虑对称性的损失函数的变体。对于训练数据中的每个类别，我们定义了一个对称轴。围绕该轴的预定义旋转会产生产生相同损失函数值的NOCS图。例如，具有正方形顶部的长方体具有垂直对称轴。在此轴上按角度旋转，θ={0°，90°，180°，270°} 会产生相同的NOCS图，因此具有相同的损失。对于非对称对象，θ=0°是唯一的。我们发现，a|θ|≤6足以处理大多数对称类别。我们生成地面真实NOCS地图，{˜y1，.。。。，˜y|θ|}，沿对称轴旋转 |θ| 次。然后我们定义我们的对称损失函数，LS=MIN i=1，…，|θ|L(˜yi，y∗)， 其中y∗表示预测的NOCS地图像素(x，y，z)。

Training Protocol: 我们用在COCO数据集上对2D实例分割任务训练的权重来初始化ResNet50主干、RPN和FPN。 对于所有的头，我们使用在[23]中提出的初始化技术。我们使用批次大小为2，初始学习率为0.001，动量为0.9%，权重衰减为1×10−4的SGD优化器。在第一阶段的训练中，我们冻结ResNet50的权重，只训练头部的层，RPN和FPN用于10K迭代。在第二阶段，我们将ResNet50层冻结在Level 4以下，并为3K迭代进行训练。在最后阶段，我们将ResNet50层冻结在Level 3以下，进行另一次70K迭代。当切换到每个阶段时，我们将学习速度降低了10倍。

6D Pose and Size Estimation

我们的目标是通过使用NOCS图和输入深度图来估计检测到的对象的全度量6D姿势和维度。为此，我们使用RGB-D相机内部和外部来对齐深度图像和彩色图像。然后，我们应用预测对象蒙版来获得被检测对象的3D点云PM。我们还使用NOCS映射来获得PN的3D表示。然后，我们估计将PN转换为PM的比例、旋转和平移。对于这个7维刚体变换估计问题，我们使用Umeyama算法，并使用RANSAC来去除异常值。定性结果见补充资料。

Experiments and Results

Metrics: 我们报告了3D对象检测和6D姿势估计度量的结果。为了评估3D检测和对象尺寸估计，我们使用阈值为50%的并集交集 (IOU) 度量。对于6D位姿估计，我们报告了平移误差小于m cm，旋转误差小于n°的对象实例的平均精度。我们将目标检测与6D姿势评估分离，因为它提供了更清晰的性能图像。我们设置了预测和地面真实之间10% 的包围盒重叠的检测阈值，以确保大多数对象都被包括在评估中。对于对称的对象类别(瓶子、碗和罐子)，我们允许预测的3D边界框绕对象的垂直轴自由旋转，而不会受到惩罚。我们对马克杯类别执行特殊处理，当手柄不可见时使其对称，因为在这种情况下很难判断其姿势，即使是对人类来说也是如此。我们使用来检测相机数据的句柄可见性，并手动为真实数据进行注释。

Baselines: 由于我们还不知道其他类别级别的6D姿势和大小估计方法，我们构建了自己的基线来帮助比较性能。它由MaskR-CNN网络组成，该网络根据相同的数据进行训练，但没有NOCS地图头。我们使用预测实例掩码从深度图中获得对象的3D点云。我们将遮罩的点云与相应类别中随机选择的一个模型对齐(使用ICP)。

Evaluation Data: 我们的所有实验都使用这两个评估数据集中的一个或两个：(1)相机验证数据集 (CAMERA25) ，和(2)带有基本事实注释的2.75K真实数据集 (REAL275)。由于真实数据有限，这使得我们可以在不涉及姿态估计和域泛化的情况下研究性能。

Category-Level 6D Pose and Size Estimation

Test on CAMERA25: 我们报告了我们的方法的类别级结果，CNN仅在275K摄像机训练集(CAMERA*)上进行了训练。我们在CAMERA25上测试了性能，它由在训练过程中完全看不到的对象和背景组成。对于50%的3D IOU，我们获得了83.9%的平均精度(MAP)，对于(5◦，5 cm)度量，MAP达到了40.9%。(5◦，5 cm)对于估计6D姿势是一个严格的度量，即使对于已知的情况也是如此。有关更多详细信息，请参见图6。

Test on REAL275: 然后，我们在COCO的弱监督下，在真实世界数据集(REAL*)的组合上训练我们的网络，并在真实世界测试集上对其进行评估。由于COCO没有地面真实NOCS地图，我们在培训期间不使用NOCS Lost。我们使用20K的可可图像，其中包含我们类别中的实例。为了在这些数据集之间进行平衡，对于每个小批量，我们从三个数据源中选择图像，其中Camera的概率为60%，CoCo的概率为20%，REAL的概率为20%。该网络是我们用来产生所有可视化结果的最佳性能模型(图8)。
在实际测试集中，我们获得了50%的3D IOU的MAP为76.4%，(5◦，5 cm)指标的MAP为10.2%，(10◦，5 cm)指标的MAP为23.1%。相比之下，基线算法(MASK RCNN+ICP align)对于50%的3D IOU的MAP为43.8%，对于(5◦，5 cm)和(10◦，5 cm)度量的MAP为0.8%，显著低于我们的算法性能。图7显示了更详细的分析和比较。这个实验表明，通过学习预测密集的NOCS地图，我们的算法能够提供关于对象的形状、部分和可见性的额外详细信息，这些信息对于正确估计对象的6D姿势和大小都是至关重要的。

Ablation Studies

CAMERA Approach: 我们还创建了一个相机* 的变体，其中图像以非上下文感知的方式合成（表1中用B表示）。如表中所示，由于域名差距，仅使用相机* 会导致性能不佳。我们看到添加COCO和REAL* 的逐步改进。由于数据集量较小，仅针对真实* 或真实* 和COCO进行培训往往会过度适合培训数据。相机培训* 与COCO和REAL* 一起带来最佳效果。此外，我们看到非上下文感知数据的性能比上下文感知数据差，这表明我们的相机方法很有用。

Classification vs. Regression: 在CAMERA25和REAL275上，像素分类始终优于回归。使用32个条柱进行姿势估计是最好的，而使用128个条柱进行检测则更好(参见表2)。
Symmetry Loss: 这种损失对于许多日常对称对象类别来说是至关重要的。为了研究对称性损失的影响，我们在CAMERA25和REAL275集上对回归网络进行了烧蚀实验。表2显示，如果不使用对称性损失，位姿精度显著降低，尤其是对于6D位姿。

Instance-level 6D Pose Estimation

我们还在OccludedLINEMOD上对我们的实例级六维位姿估计任务进行了评估，并与PoseCNN进行了比较。OccludedLINEMOD数据集有9个对象实例，并为每个实例提供一个CAD模型。它有1214张带有注释的地面真实6D姿势的图像。我们遵循中的协议，随机选择15%的数据集作为训练图像。然后，我们使用第4节中描述的技术生成15000幅合成图像。

使用32-bin分类网络，我们获得了94.7%的检测率，50%的3D IOU的MAP为88.4%，(5◦，5 cm)指标的MAP为13.9%，(10◦，5 cm)指标的MAP为33.5%。这大大高于PoseCNN，后者在没有迭代姿势细化的情况下仅获得1.7%的地图(报告在中)。图9提供了更详细的分析。实验表明，虽然我们的方法是针对类别级别的位姿估计而设计的，但它也可以在标准的6D位姿估计基准上获得最先进的性能。
利用2D投影度量地物真实位置与估计目标姿态之间的平均像素距离，在5个像素的2D投影上获得30.2%的地图。我们的方法在很大程度上超过了PoseCNN，后者在5个像素的2D投影上报告了17.2%的MAP。详细对比请参阅补充文件。
Limitations and FutureWork: 据我们所知，我们的方法是第一个解决类别级6D位姿和大小估计问题的方法。仍然有许多悬而未决的问题需要解决。首先，在我们的方法中，姿态估计是以区域建议和类别预测为条件的，这可能是不正确的，并对结果产生负面影响。其次，我们的方法依靠深度图像将NOCS预测提升到真实世界的坐标。未来的工作应该是直接从RGB图像估计6D姿势和大小。

Conclusion

我们提出了一种用于先前看不见的对象实例的类别级6D位置和大小估计的方法。我们提出了一个新的规范化对象坐标空间（NOCS），它允许我们定义具有一致对象缩放和方向的共享空间。我们提出了一种CNN，它预测可与深度图一起使用的NOCS图，以使用姿势拟合方法估计全度量6D姿势和看不见对象的大小。我们的方法在增强现实，机器人和3D场景理解等领域具有重要的应用。