论文阅读《Learning Unsupervised Multi-View Stereopsis via Robust Photometric Consistency》

论文地址:Learning Unsupervised Multi-View Stereopsis via Robust Photometric Consistency


一、摘要

  有监督的MVS方法在模型训练时依赖于数据的标签,但获取3D几何标签的过程是困难的;为此,本文利用多个视图之间的光度一致性作为模型的监督信号;由于遮挡和视图间的光照信息不同,只使用光照一致性不足以约束模型;为此,在损失函数中增加了梯度衡量项,提升模型的鲁棒性;


二、网络结构

在这里插入图片描述
  模型结构与邮件的的MVSNet相似, M M M 张不同视角的图像经过特征提取网络得到深度特征图,使用相机内参和外参将特征warp到参考视图,接下来基于方差构建匹配代价体;将得到的匹配代价体经过3D U-Net正则化得到概率体,最后基于期望的形式预测深度图 D s D_{s} Ds


三、损失函数

  自监督模型的关键点在于如何设计自监督损失来监督模型训练:得到初始深度图 D s D_{s} Ds 时,对于参考视图 I s I_{s} Is 与 源视图 I v m I_{v}^{m} Ivm ,将源视图基于预测深度图 D s D_{s} Ds 与相机warp到参考视图得: I v m ( u ^ ) I_{v}^{m}(\hat{u}) Ivm(u^),在共同可视区域内,求光度一致性损失如下式所示:
L photo  = ∑ m M ∥ ( I s − I ^ s m ) ⊙ V s m ∥ (1) L_{\text {photo }}=\sum_{m}^{M}\left\|\left(I_{s}-\hat{I}_{s}^{m}\right) \odot V_{s}^{m}\right\|\tag{1} Lphoto =mM (IsI^sm)Vsm (1)
其中 V s m V_{s}^{m} Vsm 表示两个视图中公共视野中的像素集合;
  为了增加模型鲁棒性,在光度一致性损失的基础上增加图像一阶导数的约束如式2所示,称之为一阶一致性损失:
L photo  = ∑ m = 1 M ∥ ( I s − I ^ s ) ⊙ V s m ∥ ϵ + ∥ ( ∇ I s − ∇ I ^ s m ) ⊙ V s m ∥ (2) L_{\text {photo }}=\sum_{m=1}^{M}\left\|\left(I_{s}-\hat{I}_{s}\right) \odot V_{s}^{m}\right\|_{\epsilon}+\left\|\left(\nabla I_{s}-\nabla \hat{I}_{s}^{m}\right) \odot V_{s}^{m}\right\|\tag{2} Lphoto =m=1M (IsI^s)Vsm ϵ+ (IsI^sm)Vsm (2)

  由于图像的遮挡产生的不可视点,使用光度一致性损失来强行约束两个像素点是不合理的,为此,需要融合多个图像对之间的匹配误差图,只使用top-K (M之外的)视图来实现逐像素的光度一致性,最后的光度一致性损失如式3所示:
L photo  = ∑ u min ⁡ m 1 , ⋯ m K m i ≠ m j ∑ m k L m k ( u ) V s m k ( u ) > 0 (3) L_{\text {photo }}=\sum_{u} \min _{m_{1}, \cdots m_{K} \atop m_{i} \neq m_{j}} \sum_{m_{k}} L^{m_{k}}(u) \\ \\ V_{s}^{m_{k}(u)>0}\tag{3} Lphoto =umi=mjm1,mKminmkLmk(u)Vsmk(u)>0(3)
在这里插入图片描述
  上面的公式表明,对于像素 u u u,在像素投影有效的视图中,使用最佳的K个不相交视图来计算损失。将源图像warp到参考图像视图,并计算逐像素一阶一致性损失图。然后将所有的损失图堆叠成一个三维损失体,尺寸为 W × H × M W\times H\times M W×H×M。对于每个像素在 M M M 维度找到 K K K 个最小值并将它们相加,得到像素级的一致性损失。
  此外,增加结构一致性损失和平滑项损失来约束模型训练,最后的损失函数如式4所示:
L = ∑ α L photo  + β L S S I M + γ L S m o o t h (4) L=\sum \alpha L_{\text {photo }}+\beta L_{S S I M}+\gamma L_{S m o o t h}\tag{4} L=αLphoto +βLSSIM+γLSmooth(4)


四、实验结果

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
无监督的多源域自适应是指在没有访问源数据的情况下进行的域自适应方法。为了解释这一概念,首先需要了解两个关键术语的含义:域自适应和多源。 域自适应是指在机器学习和数据挖掘中,将模型从一个域(即数据的分布)迁移到另一个域的过程。域自适应的目标是使模型在目标域上具有更好的性能,而不需要重新训练或收集目标域的数据。 多源是指使用来自多个源领域的数据来进行域自适应。这种情况下,我们有多个源域的数据,但没有目标域的数据。这可能是因为目标域的数据很难收集、昂贵或没有权限访问。 在无监督的多源域自适应中,我们试图使用多个源域的数据来进行迁移学习,从而在没有目标域数据的情况下提高目标域上的性能。这个问题是非常具有挑战性的,因为我们没有标签的目标域数据来指导模型的训练。 一种常见的方法是使用领域间的分布差异来进行特征学习。例如,可以使用深度神经网络来学习源域和目标域之间的有用特征。通过最小化源域和目标域之间的距离,我们可以使网络学习到一组在多个域上通用的特征表示。 另一个方法是使用领域适应的损失函数。这种损失函数通过最大化源域和目标域之间的相似性,或最小化它们之间的差异,来迫使模型在目标域上有更好的性能。 总的来说,无监督的多源域自适应是一种在没有目标域数据的情况下使用多个源域数据进行迁移学习的方法。它可以通过学习通用特征或使用领域适应的损失函数来提高目标域上的性能。这种方法对于许多现实世界的情况是非常有用的,例如在医疗图像诊断和自然语言处理等领域中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CV科研随想录

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值