论文:Semi-supervised Deep Multi-view Stereo,
代码:
GitHub - ToughStoneX/Semi-MVS: Pytorch code for "Semi-supervised Deep Multi-view Stereo"
一、概览:
本文探究了多视图立体视觉三维重建在半监督学习设置下的可行性,提出了一套新的半监督训练框架,在仅使用5%的有标注数据的情况下,依然可以取得大幅超过原始全监督基准模型的性能。
二、介绍:
多视图立体视觉(Multi-view Stereo, MVS)旨在从输入的多视图中重建出三维模型,在摄影测量、VR/AR、自动驾驶等领域都有广泛的应用。随着MVSNet【1】、R-MVSNet【2】等网络的提出,基于神经网络的端到端MVS三维重建网络逐渐占据了主流舞台,大幅超越此前传统方法的三维重建效果。但是,这些基于神经网络的MVS方法往往需要大规模的3D数据标注,限制了其在真实场景下的应用。为了对减少昂贵的3D数据标注的需求,一些研究者们开展了基于自监督学习【3-5】的MVS三维重建网络训练方法的研究,并取得了与全监督范式相当的效果。
全监督MVS方法与自监督MVS方法各自有自己的优缺点:
- 全监督MVS方法往往会有更高的准确性,但是由于数据标注的稀缺,往往只在图像中的一部分区域存在3D深度标注信息,这也导致最后训练的网络无法在那些没有标注的区域有较好的效果,缺乏较好的完整性;
- 自监督MVS方法依赖多视角图像之前的重投影对应关系来挖掘3D监督信息,其天然地可以自发地从多视图数据中挖掘出尽可能丰富的监督信息,往往具有更好的完整性,但是相对地,由于使用了图像重建任务这种代理任务进行间接监督,其估计的深度值准确性上还有所欠缺。
综上考虑,我们尝试着结合全监督和自监督MVS的设置并拓展到半监督MVS任务,以使其各自在准确性和完整性上的优势能得到互补,进一步提升三维重建模型的性能。
在半监督MVS任务中,我们假设只有一小部分数据有3D深度标注。然而,由于MVS任务需要应对任意的未知场景,而这一点也与传统半监督学习【6-7】中的独立同分布假设相矛盾。在下图中我们通过最大均值差异距离(Maximum Mean Distance,MMD)来度量MVS中各个不同场景之间的分布差异,并绘制成混淆矩阵的形式。在DTU和BlendedMVS两个数据集上的混淆矩阵中,红色的点代表了分布差异较大的场景,蓝色的点代表了分布差异较小的点。从图中我们可以发现,在MVS数据集中,同时存在着分布差异较小和分布差异较大的场景。这与传统半监督学习中要求独立同分布的假设相矛盾,我们称这个问题为半监督MVS分布歧义。
图1 在MVS数据集中不同场景的分布差异可视化(图中混淆矩阵基于MMD距离绘制)
而为了解决这个问题,我们提出了一个新的半监督学习MVS框架,称为SDA-MVS。一方面,SDA-MVS继承了此前全监督和自监督MVS的基准方法,在有标注多视图对上使用全监督MVS方法训练,在无标注多视图对上使用自监督MVS方法进行训练(注:为了避免繁琐的训练流程【3-4】,只使用了最基本的基于图像重投影的MVS方法进行训练)。另一方面,为了减少有标注数据和无标注数据之间的分布差异可能带来的负面影响,我们提出了一个新的风格一致性约束损失:将有标注多视图看作内容图像,将无标注多视图看作风格图像,利用神经风格迁移算法,将无标注数据的风格信息迁移到有标注数据来合成新的多视图数据,并使用有标注数据的3D深度标注进行监督。
风格一致性损失的示意图如下图所示。将有标注数据送入风格迁移模块(STM),可以合成新的多视图数据对。但是我们对合成的数据用COLMAP进行了3D一致性检验,发现风格迁移的过程中会丢失几何信息,其合成的多视图丢失了多视图一致性,对于训练的过程反而会引入不必要的噪声。为此,我们提出了几何矫正模块(GPM)来减小训练过程中的噪声,如第三列所示,使用GTM之后可以有效地缓解风格迁移过程中造成的几何畸变。
图2 在多视图风格迁移过程中几何信息丢失的问题。我们通过COLMAP进行3D一致性测试来可视化多视图对中的几何一致性
如下图(a)所示,我们首先将有标注的多视图数据与无标注多视图数据通过STM与GPM来合成一个新的风格增强数据集。随后将合并后的数据集用来训练MVS网络,有标注多视图数据直接用3D深度标注来进行监督,无标注多视图数据则使用多视图重投影损失进行监督,风格增强多视图数据集则则使用有标注数据集中的3D标注进行监督。
图3 SDA-MVS流程示意图
三、实验:
在DTU、BlendedMVS及GTASFM数据集上进行评测的结果如下表所示。在仅使用10%有标注数据的情况下,SDA-MVS都能取得与全监督相当甚至更好的效果。这里实验了两种不同的半监督设置,分别是按照MVS场景和视图划分出10%的有标注多视图数据,而剩余的均无标注。10%-V表示基于多视图对划分的半监督设置,10%-S则表示基于不同场景划分的半监督设置。
表1 在DTU、BlendedMVS及GTASFM数据集上自监督、全监督、半监督MVS的消融实验结果
图4 10%-V消融实验定性可视化结果
图4 10%-S消融实验定性可视化结果
图5 不同比例有标注数据下SDA-MVS的效果
表3 DTU上定量比较结果
表4 Tanks&Temples上定量比较结果
四、参考:
- Yao Y, Luo Z, Li S, et al. Mvsnet: Depth inference for unstructured multi-view stereo[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 767-783.
- Yao Y, Luo Z, Li S, et al. Recurrent mvsnet for high-resolution multi-view stereo depth inference[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 5525-5534.
- Xu H, Zhou Z, Qiao Y, et al. Self-supervised multi-view stereo via effective co-segmentation and data-augmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(4): 3030-3038.
- Xu H, Zhou Z, Wang Y, et al. Digging into uncertainty in self-supervised multi-view stereo[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 6078-6087.
- Yang J, Alvarez J M, Liu M. Self-supervised learning of depth inference for multi-view stereo[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7526-7534.
- Grandvalet Y, Bengio Y. Semi-supervised learning by entropy minimization[J]. Advances in neural information processing systems, 2004, 17.
- Miyato T, Maeda S, Koyama M, et al. Virtual adversarial training: a regularization method for supervised and semi-supervised learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(8): 1979-1993.