【ACMMM】Semi-supervised Deep Multi-view Stereo,FaceChain团队联合出品

论文:Semi-supervised Deep Multi-view Stereo,

Semi-supervised Deep Multi-view Stereo | Proceedings of the 31st ACM International Conference on Multimedia

代码:

GitHub - ToughStoneX/Semi-MVS: Pytorch code for "Semi-supervised Deep Multi-view Stereo"

一、概览:

本文探究了多视图立体视觉三维重建在半监督学习设置下的可行性,提出了一套新的半监督训练框架,在仅使用5%的有标注数据的情况下,依然可以取得大幅超过原始全监督基准模型的性能。

二、介绍:

多视图立体视觉(Multi-view Stereo, MVS旨在从输入的多视图中重建出三维模型,在摄影测量、VR/AR、自动驾驶等领域都有广泛的应用。随着MVSNet【1】、R-MVSNet【2】等网络的提出,基于神经网络的端到端MVS三维重建网络逐渐占据了主流舞台,大幅超越此前传统方法的三维重建效果。但是,这些基于神经网络的MVS方法往往需要大规模的3D数据标注,限制了其在真实场景下的应用。为了对减少昂贵的3D数据标注的需求,一些研究者们开展了基于自监督学习【3-5】的MVS三维重建网络训练方法的研究,并取得了与全监督范式相当的效果。

全监督MVS方法与自监督MVS方法各自有自己的优缺点

  1. 全监督MVS方法往往会有更高的准确性,但是由于数据标注的稀缺,往往只在图像中的一部分区域存在3D深度标注信息,这也导致最后训练的网络无法在那些没有标注的区域有较好的效果,缺乏较好的完整性
  2. 自监督MVS方法依赖多视角图像之前的重投影对应关系来挖掘3D监督信息,其天然地可以自发地从多视图数据中挖掘出尽可能丰富的监督信息,往往具有更好的完整性,但是相对地,由于使用了图像重建任务这种代理任务进行间接监督,其估计的深度值准确性上还有所欠缺

综上考虑,我们尝试着结合全监督和自监督MVS的设置并拓展到半监督MVS任务,以使其各自在准确性和完整性上的优势能得到互补,进一步提升三维重建模型的性能。

在半监督MVS任务中,我们假设只有一小部分数据有3D深度标注。然而,由于MVS任务需要应对任意的未知场景,而这一点也与传统半监督学习【6-7】中的独立同分布假设相矛盾。在下图中我们通过最大均值差异距离(Maximum Mean Distance,MMD)来度量MVS中各个不同场景之间的分布差异,并绘制成混淆矩阵的形式。在DTU和BlendedMVS两个数据集上的混淆矩阵中,红色的点代表了分布差异较大的场景,蓝色的点代表了分布差异较小的点。从图中我们可以发现,在MVS数据集中,同时存在着分布差异较小和分布差异较大的场景。这与传统半监督学习中要求独立同分布的假设相矛盾,我们称这个问题为半监督MVS分布歧义

图1 在MVS数据集中不同场景的分布差异可视化(图中混淆矩阵基于MMD距离绘制)

而为了解决这个问题,我们提出了一个新的半监督学习MVS框架,称为SDA-MVS。一方面,SDA-MVS继承了此前全监督和自监督MVS的基准方法,在有标注多视图对上使用全监督MVS方法训练,在无标注多视图对上使用自监督MVS方法进行训练(注:为了避免繁琐的训练流程【3-4】,只使用了最基本的基于图像重投影的MVS方法进行训练)。另一方面,为了减少有标注数据和无标注数据之间的分布差异可能带来的负面影响,我们提出了一个新的风格一致性约束损失:将有标注多视图看作内容图像,将无标注多视图看作风格图像,利用神经风格迁移算法,将无标注数据的风格信息迁移到有标注数据来合成新的多视图数据,并使用有标注数据的3D深度标注进行监督。

风格一致性损失的示意图如下图所示。将有标注数据送入风格迁移模块(STM),可以合成新的多视图数据对。但是我们对合成的数据用COLMAP进行了3D一致性检验,发现风格迁移的过程中会丢失几何信息,其合成的多视图丢失了多视图一致性,对于训练的过程反而会引入不必要的噪声。为此,我们提出了几何矫正模块(GPM)来减小训练过程中的噪声,如第三列所示,使用GTM之后可以有效地缓解风格迁移过程中造成的几何畸变。

图2 在多视图风格迁移过程中几何信息丢失的问题。我们通过COLMAP进行3D一致性测试来可视化多视图对中的几何一致性

如下图(a)所示,我们首先将有标注的多视图数据与无标注多视图数据通过STM与GPM来合成一个新的风格增强数据集。随后将合并后的数据集用来训练MVS网络,有标注多视图数据直接用3D深度标注来进行监督,无标注多视图数据则使用多视图重投影损失进行监督,风格增强多视图数据集则则使用有标注数据集中的3D标注进行监督。

图3 SDA-MVS流程示意图

三、实验:

在DTU、BlendedMVS及GTASFM数据集上进行评测的结果如下表所示。在仅使用10%有标注数据的情况下,SDA-MVS都能取得与全监督相当甚至更好的效果。这里实验了两种不同的半监督设置,分别是按照MVS场景和视图划分出10%的有标注多视图数据,而剩余的均无标注。10%-V表示基于多视图对划分的半监督设置,10%-S则表示基于不同场景划分的半监督设置。

表1 在DTU、BlendedMVS及GTASFM数据集上自监督、全监督、半监督MVS的消融实验结果

图4 10%-V消融实验定性可视化结果

图4 10%-S消融实验定性可视化结果

图5 不同比例有标注数据下SDA-MVS的效果

表3 DTU上定量比较结果

表4 Tanks&Temples上定量比较结果

四、参考:

  1. Yao Y, Luo Z, Li S, et al. Mvsnet: Depth inference for unstructured multi-view stereo[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 767-783.
  2. Yao Y, Luo Z, Li S, et al. Recurrent mvsnet for high-resolution multi-view stereo depth inference[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 5525-5534.
  3. Xu H, Zhou Z, Qiao Y, et al. Self-supervised multi-view stereo via effective co-segmentation and data-augmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(4): 3030-3038.
  4. Xu H, Zhou Z, Wang Y, et al. Digging into uncertainty in self-supervised multi-view stereo[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 6078-6087.
  5. Yang J, Alvarez J M, Liu M. Self-supervised learning of depth inference for multi-view stereo[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7526-7534.
  6. Grandvalet Y, Bengio Y. Semi-supervised learning by entropy minimization[J]. Advances in neural information processing systems, 2004, 17.
  7. Miyato T, Maeda S, Koyama M, et al. Virtual adversarial training: a regularization method for supervised and semi-supervised learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(8): 1979-1993.
  • 28
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
近年来,半监督深度面部表情识别成为了人们关注的热点问题之一。在这个领域,研究人员一直致力于利用少量有标签的数据和大量无标签的数据来提高面部表情识别的准确性和鲁棒性。Adaptive是一种有效的半监督学习方法,它能够自适应地利用标签和无标签数据,使得深度学习模型在应用于面部表情识别时更加有效。 半监督学习是一种机器学习方法,利用少量有标签的数据和大量无标签的数据来训练模型。在面部表情识别中,往往很难获取大量有标签的数据,而无标签数据却很容易获取,因此半监督学习成为了一种有吸引力的解决方案。通过利用Adaptive方法,研究人员可以更好地利用无标签数据,提高模型的泛化能力和鲁棒性,从而提升面部表情识别的准确性。 Adaptive方法还可以帮助模型在数据分布变化时自适应地调整,使得模型更具灵活性和稳健性。在面部表情识别任务中,由于不同环境和条件下的面部表情具有差异性,Adaptive方法能够使模型更好地适应这种差异,提高识别的鲁棒性。 总之,半监督深度面部表情识别与Adaptive方法的结合,有望提高面部表情识别的准确性和鲁棒性,为人们提供更加高效和可靠的面部表情识别技术。相信随着更多研究和实践的开展,半监督深度面部表情识别将迎来更加广阔的发展前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI记忆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值