【论文简述】Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentat(AAAI 2021)

一、论文简述

1. 第一作者:Hongbin Xu、Zhipeng Zhou

2. 发表年份:2021

3. 发表期刊:AAAI

4. 关键词:MVS、自监督、分割、数据增强

5. 探索动机:由下图(a)可见,以图像重建任务作为代理任务的自监督MVS方法都依赖于一个比较粗糙的假设,即颜色一致性假设(Color Constancy Hypothesis)。该假设认为:多视图之间的匹配点具有相同的颜色。然而,由上图(b)中可见,在实际场景下,多视角图像的颜色值可能被各种外界因素干扰而导致匹配点具有不同的颜色,例如:光照变化、反光,噪声干扰等等。因此,基于颜色一致性假设的自监督信号在这些情况下很有可能引入错误的监督信号,反而干扰模型的效果。我们将这类问题称之为:颜色一致性歧义问题(Color Constancy Ambiguity)。

6. 工作目标:自监督MVS中的颜色一致性歧义问题,其根本原因在于图像重建这个代理任务仅仅考虑了颜色空间上的对应关系(Correspondence)。而这种基于RGB像素值差异的度量指标在表示多视图之间的对应关系时不够可靠,也限制了自监督方法的性能。那么,很自然地可以考虑考虑如何引入额外的先验知识,以提供一个更鲁棒的代理任务作为自监督信号。由此可以分为以下两点:

  1. 语义一致性:引入抽象的语义信息来提供鲁棒地对应性关系,将图像重建任务替换为语义分割图的重建任务构建自监督信号。
  2. 数据增强一致性:在自监督训练中引入数据增强,来提升网络针对不同颜色变化的鲁棒性。

7. 核心思想:但是在构建自监督信号时,依然存在一些不可忽视的问题:

  1. 对于语义一致性先验来说,获取语义分割图标注的成本是非常高昂的。此外训练集中的场景是动态变化的,我们无法像自动驾驶任务那样明确地定义好所有场景中所有元素的语义类别。这也是此前的自监督方法中不曾使用语义信息构建自监督损失的原因。为此,通过对多视角图像进行无监督的协同分割(Co-Segmentation),以挖掘出多视角图像之间的共有语义信息来构建自监督损失。
  2. 对于数据增强一致性先验来说,数据增强本身就会带来颜色分布的改变,换言之可能反过来引发颜色一致性歧义的问题,干扰自监督信号。为此,将单分支的自监督训练框架划分为双分支,使用原始分支的预测结果作为伪标签来监督数据增强分支的预测结果。
  3. 具体贡献如下:
  1. We propose a unified unsupervised MVS pipeline called Joint Data-Augmentation and Co-Segmentation framework(JDACS) where extra priors of semantic consistency and data augmentation consistency can provide reliable guidance to overcome the color constancy ambiguity.
  2. We propose a novel self-supervision signal based on semantic consistency, which can excavate mutual semantic correspondences from multi-view images at unfixed scenarios in a totally unsupervised manner.
  3. We propose a novel way to incorporate heavy data augmentation into unsupervised MVS, which can provide regularization towards color fluctuation.

8. 实验结果:

he experimental results show that our proposed method can lead to a leap of performance among unsupervised methods and compete on par with some top supervised methods.

9.论文及代码下载:

https://arxiv.org/pdf/2104.05374v1.pdf

https://github.com/ToughStoneX/Self-Supervised-MVS

二、实现过程

1. JDACS概述

整个框架分为三个分支:

  1. 深度估计分支:输入参考视角(Reference View)以及源视角图像(Source View)到网络中,利用预测的深度图和源视角图像来重建参考视角图像。比较参考视角下重建图像和原图的差异,构建光度立体一致性损失(Photometric Consistency)。
  2. 协同分割分支:将输入多视图送入一个预训练的VGG网络,对其特征图进行非负矩阵分解(NMF)。由于NMF的正交约束,其过程可以看做对多视图之间的共有语义进行聚类,并输出协同分割图。随后通过预测的深度图和多视角的协同分割图构建分割图像重建任务,即语义一致性损失。
  3. 数据增强分支:对原始多视图进行随机的数据增强,并送入到网络中。以深度估计分支预测的深度图作为伪标签来监督数据增强分支的预测结果,构建数据增强一致性损失。

2. 深度估计分支

采用MVSNet、CVP-MVSNet等主干网络,用于预测深度图。

光度一致性光度一致性的关键思想是在同一视角下最小化合成图像和原始图像之间的差异。表示第1个视图为参考视图,其余N−1视图为i(2≤i≤N)索引的源视图。对于一对特定的图像(I1,Ii)具有相关的内在和外在参数(K,T),可以基于它的参考视图坐标pj计算出在源视图中相应的位置p`j 。

其中j(1≤j≤HW)为像素点的索引,D为预测的深度图。然后利用可微双线性采样得到形变后的图像Ii`。

通过形变,二进制有效性掩码Mi同时生成,表示新视图中的有效像素,因为一些像素可能被投影到图像的外部区域。在MVS中,将所有N−1个源视图投影参考视角来计算光度一致性损失。

其中∇表示梯度算子,o是点积。在颜色空间和梯度空间计算两者的L1损失。

3. 协同分割分支

通过无监督协同分割从多视图图像中挖掘隐式公共分割。共同分割的目的是在给定的图像集合中定位共同目标的前景像素。非负矩阵分解(NMF)具有固有的聚类性质。通过一个经典的协同分割管道,将NMF应用于一个预先训练的CNN层的激活,可以用来发现图像之间的语义对应。

1. N张图片作为输入,经过ImageNet预训练好的Vgg模型得到[N, C, h, w]的特征图。(此处h和w是特征图大小而非原图大小)。

2. 将N个特征图的维度转换为[Nhw, C],经过非负矩阵分解得到P矩阵:[Nhw, K]和Q矩阵:[K, C],将P矩阵维度转换为[N, h, w, K],其中K为预设的类别个数,目的是将特征图内的像素聚类为K个类别。

3.重塑为onehot图,再通过softmax构建语义图

4. 计算协同分割损失

4. 数据增强分支

近期的一些对比学习的工作证明了数据增强在自监督学习中的好处。直觉上,数据增强带来了具有挑战性的样本,打破了无监督损失的可靠性,因此提供了对变化的鲁棒性。简单地说,定义一个随机向量θ来参数化任意的增强τθ : 图像I→I¯。τθ 然而,数据增强很少应用于自监督方法,因为增强图像中自然的颜色波动可能会干扰自监督的颜色不变性的约束。因此,通过将原始数据和增强样本的输出进行正则化对比,而不是优化视图合成的原始目标,来增强非监督数据增强的一致性。

具体来说将N张图片进行数据增强,经过深度估计分支的共享CVP_MVSNET得到每层金字塔的深度图,然后计算损失。

数据增强一致性损失深度估计分支中原始图像I的规则前向传递预测记为D,将增强图像I¯τθ的预测记为D¯τθ。以一种对比的方式,通过最小化D和D¯τθ之间的差来确保数据增强的一致性:

其中Mτθ 表示变换τ下的未遮挡掩码τθ。由于不同视图之间存在极线约束,本框架中集成的增强方法不改变像素的空间位置。数据增强方法如下:

  1. 交叉视图掩码:为了模拟多视图情况下的遮挡幻觉,随机生成一个二值裁剪掩码1-Mτθ1来遮挡参考视图上的一些区域。然后将遮挡掩码投影到其他视图上,遮挡出图像中相应的区域。假设剩余区域Mτθ1不受变换的影响,可以比较原始样本和增强样本结果之间的有效区域。
  2. 伽玛校正:伽玛校正是一种非线性操作,用于调整图像的光度。为了模拟各种光照,积分随机伽马校正τθ2参数化θ2来挑战无监督损失。
  3. 颜色抖动和模糊:许多变换可以将颜色波动附加到图像上,例如随机颜色抖动、随机模糊、随机噪声。颜色波动使得MVS中的无监督损失不可靠,因为光度损失要求视图之间的颜色恒定。相反,这些表示为τθ3的变换可以创建具有挑战性的场景,并在自监督中规范对颜色波动的鲁棒性。

整个变换τθ可以表示为上述增强的组合:τθ =τθ3◦τθ2◦τθ1,其中◦表示功能组合。

5. 整体损失

除了基于光度一致性的基础的自监督信号LPC,增加了两个额外的自监督信号,语义一致性LSC 数据增强一致性LDA。除了上述损失,一些常见的正则化项也用于深度估计,如结构相似度LSSIM和深度平滑度LSmooth。最终损失如下:

其中权重经验设置为:λ1 = 0.8,λ2 =0.1, λ3 = 0.1, λ4 = 0.2, λ5 = 0.0067。 

6. 实验

与先进技术的比较

7. 限制

存在一些待解决的问题:首先,在非纹理区域如黑色/白色背景等等,是不存在有效的自监督信号的,因为所有背景像素点的颜色乃至语义都是相同的;其次,通过协同分割的方法只挖掘出了相对粗糙的语义信息,这是由于基于ImageNet分类任务预训练的VGG模型并不适用于需要关注到细节语义的分割任务。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

华科附小第一名

您的支持对我的前行很重要!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值