A Point Set Generation Network for 3D Object Reconstruction from a Single Image
先写一下读书报告吧
计算机视觉读书报告
1. 研究背景
目前,所有在3D领域中成功的深度学习的卷积结构,都面临着一个根本性问题,即图像的二义性。单幅图像对于物体的真实情况总不能全方位的面描述,因而在对于单幅图像重构时,存在着图像的二义性。而二维网格或点云是不规则的结构,利用权重共享的规律不容易融入架构,因此现存大多数现存的使用深度网络的结构,要么是体积网格,要么是图像的集合(几何的2D视图)。然而这种表述难以平衡高分辨率和高效率。在目前看来,大多数的研究集中在多视图几何如SFM和SLAM。然而,对于SFM和SLAM必须合并先验知识。随着商品的3D传感器成为热门,RGBD数据库已建成并用于训练学习系统。还有一些方法比如重新组合现有的形状到一个新的模型,来拟合观测图像,但是这些系统依赖于对应的高质量的图像形状。目前虽然三维重建工作取得了很大的进展,但这些方法仍然不能有力地从单幅图像重建完整和质量的形状。而点云是一种简单、统一的结构,更容易学习,因为它不必对多个原语或组合连接模式进行编码。此外,当涉及到几何变换和变形时,点云允许简单操作,因为连通性不需要更新。
2.论文概述
2.1目标
从一个单一的图像三维重建,产生一个直接的输出形式-点云坐标。
2.2问题与解决
A. 二义性问题
单幅图像所固有的问题就是其二义性即图像不完整导致图像模糊,对输入图像的真实形状可能模棱两可。通过这种非正统的输出形式驱动和真实图像的固有的二义性,论文设计的体系结构,损失函数和学习模式,是新的和有效的。最后的解决方案是一个有条件的形状采样器,能够从输入图像中预测多个合理的三维点云。
B. 损失函数估计
文中提到的方法面临的挑战之一是在训练过程中如何衡量损失,同一几何体在相同的近似程度下可以允许不同的点云表示。采用了基于地震动距离(EMD)的运输问题的求解方法,有效地解决了指派问题,利用一个近似EMD提供速度以及确保端到端的训练可微性。
C. 对多个候选图形的选择
解决了其单幅图像的模糊问题的同时也带来了一个问题,即单幅图像可能有多种同样好的三维重构的预测,要从这些预测中进行抽样。如果把它看作是一个回归问题,但是由于每个训练样本只有一个独特的地真实形状,使这个问题不同于经典的回归/分类设置。因此为了解决这个问题需要设置适当的损失定义。
2.3本篇论文的工作概述
A.论文首次通过深度学习研究点集生成问题;
B.在单幅图像的三维重建任务中,应用了点集生成网络,大大超过了当前的状态;
C.系统地探讨了点生成网络的体系结构和损失函数设计问题;
最终的采样器表示为:
(2.1)
其中G为神经网络,r为随机扰动变量,为网格参数
3详细方法
3.1生成点集的预测网络
论文的创新之处在于最后生成了并行的分支预测,结合了全连接网络(FC)和反卷积(deconv)。这两种方式的结合使得预测结构与FC相比,更加灵活,在描述复杂结构时表现出更好的性能。与反卷积相比,不仅能够实现参数权重共享,对表面光滑的物体表面也更加有效。其网络结构如图3-1所示:
图3-1
3.2 点集之间的距离度量
为了度量点集之间的距离,作者提出了两种候选方式
A.Chamfer distance:
原理: Chamfer Distance算法基本上是基于3x3的窗口来生成每个像素的距离值,分为两步完成距离变换,第一步从左上角开始,从左向右、从上到下移动窗口扫描每个像素,检测在中心像素x的周围0、1、2、3四个像素,保存最小距离与位置作为结果,第二步从底向上、从右向左,对每个像素,检测相邻像素4、5、6、7保存最小距离与位置作为结果,如图示3-2所示:
即求目标点的最近点,求出距离的平方分段。
B. Earth March’s distance
EMD是一个指派的问题,而且由于不满足三角不等式,所以不算是距离。但是由于EMD的计算量大,太过精细,所以在文章中作者提出了1+代替,为每个实例分配了固定的时间量,并逐步调整允许的错误率
在文中EMD的定义为:
(3.2)
EMD与CD的测试结果如图3-3所示:
C.生成多种合理相似的形状:
最终的网络结构如图3-4所示
其中Mo2的意思为MoN即Min-of-N的损失估计系统时,n=2时的估测。
其公式表达为:
输入图像I由于有n个随机向量R,所以能生成n种结果,最终得到的数据是与无限接近,也就是意味着n的距离一定要小,最终的实验结果设置n为2。
4 实验
4.1综合训练数据生成
首先,采用了从CAD对象模型中呈现二维视图的方法。我们的模型是从ShapeNet集,含有大量人工清理的带有纹理3D模型对象。
4.2 RGB图像的三维形状重建
最先近的技术3D-R2N2比较的结果。3D-R2N2重建三维是从单一或者多视角图像的体积表示,由斯坦福大学的研究人员提出,该神经网络从大量合成数据中学习,能学会从物体的图像映射为基本的3D形状,当模型输入一个实体的任意角度的一个或者多个图像时,就能重构出3D对象,该3D对象的格式是Occupancy Grid。该方法不需要图像注释或者分类标签进行训练,并优于传统的SLAM 3D建模方法,克服了过去无法解决的缺乏纹理和宽基线特征匹配等挑战。 研究人员使用的数据集包括:ShapeNet、PASCAL 3D、TOnline Products和MVS CAD Models。为了进行比较,我们用3D-R2N2作者提供的数据集对我们的网络重新进行检测。结果如图4-1所示:
4.3 RGBD的三维图像完善
论文方法很一个有趣的特点是,可以很容易地向系统注入额外的输入信息完善3D形状。当神经网络的输入是RGBD时,系统可以被看作是一个三维形状的完善方法,神经网络成功地猜测了模型中缺失的部分。通过使用嵌入在对象库的先验形状,系统可以利用对称的线索(如飞机上应该有对称的两侧)和功能(拖拉机应该轮)。点集的灵活表现形式有助于物体的一般形状和拓扑的分解。更细加有纹理性的方法,可以直接利用局部几何线索级联我们的预测后,以丰富更高频率的细节。图4-2显示的预测实例:
4.4 多个可能形状的预测
论文中所提到的网络可以通过随机性可以给定相同的输入图像预测不同的形状。为了显示这一点,以RGB图像作为输入,在训练通过使用MO2或VAE的方法处理的随机性,在地面真实情况未知的测试时刻,随机数从预定义分布中采样。图4-3绘制了做出预测集的例子,该网络能够揭示输入的形状或模糊性的不确定性。
4.5网络设计分析
图4-4显示了结合deconv和FC分支的重建的效果。deconv分支一般是善于捕捉“主体”对象,而完全连通分支补充形状更详细的组件(如尖枪,尾巴的飞机,一个沙发的手臂)。这揭示了两个分支的互补,当所需的输出结构一致时,预定义的权重共享节点的连通分支赋予deconv更高的效率。全连通分支更为灵活,但各点独立控制消耗更多的网络容量。
4.6真实物体的数据应用
图4-5列出了更多的关于虚拟数据和真实世界照片预测示例。对于现实世界的照片,通过掩盖背景像素来标识对象。虽然只对模拟数据进行训练,但是算法也提供了满意的结果。
5结论
虽然论文能够解决其图像二义性的问题,但是由于没有检测机制,还是会有失败的案例存在。如图5-1所示:
所以我个人认为在此基础上可以增加图像的监测机制,比如提前输入常见物品的形状,根据相似度判断是该物品,然后增加细节机制。