NOCS论文理解

最新推荐文章于 2024-10-10 07:19:15 发布

KirutoCode

最新推荐文章于 2024-10-10 07:19:15 发布

阅读量5.3k

点赞数 4

分类专栏： 6DEoF

本文链接：https://blog.csdn.net/McEason/article/details/104088862

版权

这篇博客介绍了Normalized Object Coordinate Space (NOCS)技术，用于解决看不见的物体实例级6D位姿和尺寸估计问题。通过训练一个基于区域的神经网络预测NOCS map，结合深度图进行点云重建和位姿估计。文章强调了NOCS在无需精确CAD模型情况下的优势，提出了上下文感知混合现实数据生成方法，并分析了物体对称性处理。实验表明，NOCS方法在处理物体位姿和尺寸估计时表现优越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

解决什么问题

看不见的物体的实例级6D位姿和维度估计，不需要准确的CAD模型，就能对同类的物体进行估计

本文创新点\贡献

一个共享的典型表达方式：Normalized Object Coordinate Space(NOCE)，可以和深度图结合来从一个杂乱的场景中估计多物体的6D和维度。
为了更好的训练，提出了了一种新的上下文感知技术来生成大量的完整的混合现实数据。
介绍了一种新的混合现实方法，该方法可以自动生成大量的数据，这些数据由对象和真实背景的合成渲染图组成，并且具有上下文感知能力，使其更加真实。

方法

方法概述

在这里插入图片描述
$总览图$
训练一个基于区域的神经网络，预测多物体的class lable、instance mask、NOCS map，NOCS map能提供在规范空间的物体的外形和尺寸，之后将规范空间和深度图结合，使用异常点去除和对齐技术就能预测出物体的6D和size

使用预测的物体的mask能获得检测的物体的3D点云 $P_m$ ，同时也用NOCS map来获得 $P_n$ 的3D表达，然后估计让 $P_n$ 到 $P_m$ 变换的缩放、旋转、位移，用Umeyama算法来估计这7个维度，然后用RANSAC来处理离群点

这里没有在CNN预测的时候就是用depth map，因为现在好多检测、分割的数据集都是没有depth的，CNN不适用的话，就可以用那些来训练，这样的话效果更好一些。
是个好技巧！

mask+深度图确实可以的到点云信息，而且是蛮不错的信息，而NOCS map估计的，是在单位cube里的吧，所以要做一个变换，这个R、t、scale就是要求的吗？

Normalized Object Coordinate Space (NOCS):

在这里插入图片描述

一句话概括

让网络预测该模型在图像上的映射图(NOCS map)

解决的点

解决测试时对CAD模型的依赖的问题

优点

在测试的时候不使用CAD模型

原理

对NOCS Map的解释()：

物体的可见部分的NOCS中的形状重建
稠密的逐像素NOCS对应

还是逐像素对应套路

操作

模型部分

NOCS被定义在一个包含单位方块的3D空间中， $\in [0,1]$ 。

给定每个类的一些已知的目标CAD模型的集合，通过均匀缩放对象来标准化它们的大小，使其紧密包围框的对角线长度为1，并以NOCS空间为中心；同一类的物体中心和方向都是对齐的

对角线看着不是1啊，就是正方形的变成是1，难道说中心的摄像机实体的对角线长度为1？这个摄像机是悬浮在NOCS的中间吗？
对齐应该就是规范化到一个固定的坐标系的意思吧(中心、方向都固定)
这个均匀缩放是如何做的呢？作者使用的是一些原有的位置、尺寸、方向都规范化的模型(ShapeNetCore)，重点在于如何汇聚成一个?
答：一直理解错了，并没有融合成一个！

NOCS的color code：
每个NOCS中的的位置 $(x, y, z)$ 能用一个RGB颜色元组来可视化，训练的时候用NOCS在2D图像上的投影，然后测试的时候回归NOCS map