文章目录
解决什么问题
看不见的物体的实例级6D位姿和维度估计,不需要准确的CAD模型,就能对同类的物体进行估计
本文创新点\贡献
- 一个共享的典型表达方式:Normalized Object Coordinate Space(NOCE),可以和深度图结合来从一个杂乱的场景中估计多物体的6D和维度。
- 为了更好的训练,提出了了一种新的上下文感知技术来生成大量的完整的混合现实数据。
- 介绍了一种新的混合现实方法,该方法可以自动生成大量的数据,这些数据由对象和真实背景的合成渲染图组成,并且具有上下文感知能力,使其更加真实。
方法
方法概述
总 览 图 总览图 总览图
训练一个基于区域的神经网络,预测多物体的class lable、instance mask、NOCS map,NOCS map能提供在规范空间的物体的外形和尺寸,之后将规范空间和深度图结合,使用异常点去除和对齐技术就能预测出物体的6D和size
使用预测的物体的mask能获得检测的物体的3D点云 P m P_m Pm,同时也用NOCS map来获得 P n P_n Pn的3D表达,然后估计让 P n P_n Pn到 P m P_m Pm变换的缩放、旋转、位移,用Umeyama算法来估计这7个维度,然后用RANSAC来处理离群点
这里没有在CNN预测的时候就是用depth map,因为现在好多检测、分割的数据集都是没有depth的,CNN不适用的话,就可以用那些来训练,这样的话效果更好一些。
是个好技巧!
mask+深度图确实可以的到点云信息,而且是蛮不错的信息,而NOCS map估计的,是在单位cube里的吧,所以要做一个变换,这个R、t、scale就是要求的吗?
Normalized Object Coordinate Space (NOCS):
一句话概括
让网络预测该模型在图像上的映射图(NOCS map)
解决的点
解决测试时对CAD模型的依赖的问题
优点
在测试的时候不使用CAD模型
原理
对NOCS Map的解释():
- 物体的可见部分的NOCS中的形状重建
- 稠密的逐像素NOCS对应
还是逐像素对应套路
操作
模型部分
NOCS被定义在一个包含单位方块的3D空间中, x , y , z ∈ [ 0 , 1 ] {x,y,z} \in [0,1] x,y,z∈[0,1]。
给定每个类的一些已知的目标CAD模型的集合,通过均匀缩放对象来标准化它们的大小,使其紧密包围框的对角线长度为1,并以NOCS空间为中心;同一类的物体中心和方向都是对齐的
对角线看着不是1啊,就是正方形的变成是1,难道说中心的摄像机实体的对角线长度为1? 这个摄像机是悬浮在NOCS的中间吗?
对齐应该就是规范化到一个固定的坐标系的意思吧(中心、方向都固定)
这个均匀缩放是如何做的呢?作者使用的是一些原有的位置、尺寸、方向都规范化的模型(ShapeNetCore),重点在于如何汇聚成一个?
答:一直理解错了,并没有融合成一个!
NOCS的color code:
每个NOCS中的的位置 ( x , y , z ) (x,y,z) (x,y,z)能用一个RGB颜色元组来可视化,训练的时候用NOCS在2D图像上的投影,然后测试的时候回归NOCS map
这个投影叫做NOCS Map
但是,这个Map有什么用呢?
颜色也只是刚好如此吧,恰好颜色也是三通道,对应xyz
CNN部分
用CNN来预测color-coded NOCS坐标的2D映射,也就是预测NOCS Map。
作者的CNN能学会生成看不见的物体的外观,再训练外观数量很多的集合的时候,也能预测物体和NOCS的逐像素对应关系。
做成NOCS的模型数量不多的时候,可以直接预测外观,但做成NOCS的模型数量很多的时候,就要用对应来处理,是这样吗?
是因为种类太多,就必须要用“模型融合”之后的模型吗?
这个方法很鲁棒,即使只有部分可见的时候。
物体对称
问题描述
许多家具物品都是关于一个轴对称的,比如杯子,作者一开始没有考虑到这个对称,就导致计算一些物体分类的结果的时候,产生很大的误差。
方法
对于每个训练数据中的catagory,定义了一个对称轴。在NOCS映射中,这个轴的预定义旋转会产生相同的损失函数值。
例如,一个筛子顶部是长方形的&#x