自监督深度估计提高语义分割表现CVPR2021

fig1

摘要

为语义分割训练深层网络需要大量标记的训练数据,这在实践中是一个重大挑战,因为标记分割掩码是一个高度劳动密集的过程。为了解决这个问题,论文提出了一个半监督语义分割框架,该框架通过从未标记图像序列(unlabeled image sequences)中进行自监督单目深度估计(monocular depth estimation)来增强。特别是,论文提出了三个关键贡献:

  • 将自监督深度估计过程中学习到的特征知识转移到语义分割;
  • 通过使用场景的几何信息混合图像和标签来实现强大的数据增强;
  • 利用深度特征的多样性(depth feature diversity)以及在student-teacher框架中学习depth的难度来选择最有用的样本进行语义分割。

论文在Cityscapes数据集上验证了所提出的模型,在该数据集上,所有三个模块都显示出显著的性能提升,并且实现了半监督语义分割的最新结果。

1.引言

卷积神经网络(CNN)在各种计算机视觉任务中取得了最先进的成果,包括语义分割。然而,由于涉及数百万可学习的参数,训练CNN通常需要大规模带注释的数据集。收集此类训练数据主要依赖于手动注释。对于语义分割,由于需要密集的注释,该过程的成本可能特别高。例如,在Cityscapes数据集中注释一幅图像平均需要1.5小时。

最近,自监督学习已被证明是手动标记数据的一种有前途的替代方法。它的目标是从未标记数据中学习表示,而不是依赖人工标记的监督损失。该原理已成功应用于立体图像对(stereo pairs)或图像序列(image sequences)的深度估计。此外,语义分割与深度图紧密结合。有几项研究表明,联合学习语义分割和有监督深度估计可以提高这两项任务的效率。基于这些观察,论文研究了一个问题:How can we leverage self-supervised depth estimation to improve semantic segmentation?

在这项工作中,论文提出了一种利用自监督单目深度估计(SDE)的三重方法(threefold approach),以提高语义分割的性能,并减少所需的注释量。论文的贡献跨越了整体学习(holistic learning)过程,从数据选择、数据增广到跨任务表示学习,同时通过使用SDE实现了统一。

首先,在迁移学习和多任务学习框架下,论文将SDE作为语义图像分割的辅助任务(auxiliary task),并表明它显著提高了语义分割的性能,尤其是在监督受限的情况下。之前的工作仅涉及全监督(full supervision)、预训练(pretraining)或改进SDE,而不是语义分割。其次,论文提出了一种强大的数据增强策略DepthMix,该策略根据从SDE获得的场景几何结构,混合图像及其标签。与之前的方法相比,DepthMix显式地构建场景的几何结构,并生成较少的伪影artifacts(见图1)。第三,论文提出了Automatic Data Selection for Annotation,选择最有用的样本进行注释,以最大化增益。Selection是由两个标准反复驱动的:多样性和不确定性。在这种情况下,这两个任务都是通过将SDE作为proxy task进行的。而论文的方法遵循主动学习周期(模型训练→ 查询选择→ 注释→ 模型训练),它不需要人在循环中提供语义分割标签,因为人被 proxy task SDE 取代。这大大提高了灵活性、可扩展性和效率。
fig2

  • 图1:论文提出的DepthMix概念及其Baseline:ClassMix。通过利用SDE,DepthMix减轻了几何伪影。

论文方法的主要优点是,我们可以从大量易于访问的未标记图像序列中学习,并利用学习到的知识以各种方式提高语义分割性能。在对Cityspaces的实验评估中,展示了所有三个组成部分的显著性能提升,并在相当大的幅度上改进了之前半监督分割的最新技术。具体来说,论文的方法在只有1/30个可用标签的情况下实现了92%的注释性能,甚至略优于只有1/8个标签的方法。贡献总结如下:

  • (1)论文首次用SDE作为辅助任务来利用未标记图像序列,并显著提高了半监督语义分割的性能。
  • (2)提出了DepthMix,这是一种强大的数据增强策略,它考虑场景的几何结构,并结合(1)实现了半监督语义分割的最新结果;
  • (3)为了提高主动学习(active learning)的灵活性,提出了一种基于SDE的自动标注数据选择方法。它将人工注释器替换为SDE,并提高了在数据选择loop中使用人工的要求。

2.Related Work

2.1(半监督)语义分割

自Long等人首次将卷积神经网络(CNN)用于语义分割以来,它们已成为解决该问题的最先进方法。大多数架构都基于编码器-解码器设计(FCN)。跳连接和空洞卷积在分割中保留细节,空间金字塔池聚合不同的尺度以利用空间上下文信息。

半监督语义分割在训练过程中使用额外的未标记数据。为此,Souly等人和Hung等人利用了生成对抗网络。Souly等人使用该概念(concept)生成额外的训练样本,而Hung等人基于语义分割概率图(semantic segmentation probability maps)训练判别器。s4GAN通过添加多标签分类扩展了这一想法。另一项工作基于一致性训练,其中扰动应用于未标记图像或其中间特征,损失项强制执行分割的一致性。虽然Ouali等人研究编码器特征的扰动,但CutMix将输入图像中的作物与其伪标签混合,以生成额外的训练数据,ClassMix使用伪标签的类分割来构建混合掩码。论文提出的DepthMix模块受到了这些方法的启发,但相比之下,它在混合样本时也考虑场景的结构。通常,有几种方法包括使用伪标签和mean-teacher的自监督训练,冯等人将其扩展为class-balanced curriculum。另一项相关工作是从自监督的任务中学习语义分割的有用表示,如跟踪、上下文修复、着色、深度估计或光流预测optical flow prediction。所有这些方法都优于ImageNet预训练。

2.2Active Learning

另一种减少所需注释数量的方法是主动学习。它反复地要求人标记信息量最大的样本。一方面,基于不确定性的方法选择基于熵或集合不一致等估计的高不确定性样本。另一方面,基于多样性的方法选择样本,这大部分增加了标记集的多样性。对于分割,主动学习通常基于不确定性度量,如MC dropout、熵或多视图一致性。除了选择整张图像的方法,还有几种方法在区域级别应用更细粒度的标签请求,还包括标签成本估算。

与这些工作不同的是,我们通过将人替换为SDE来执行注释的自动数据选择。因此,在主动学习周期中,我们不需要人工在回路中注释。以前执行无监督数据选择的工作仅限于浅层模型,具有低维输入的分类器,或者不执行迭代数据选择,以动态适应在当前标记集上训练的模型的不确定性。

补充内容:主动学习

在没有使用主动学习(Active Learning)的时候,通常来说系统会从样本中随机选择或者使用一些人工规则的方法来提供待标记的样本供人工进行标记。这样虽然也能够带来一定的效果提升,但是其标注成本总是相对大的。

用一个例子来比喻,一个高中生通过做高考的模拟试题以希望提升自己的考试成绩,那么在做题的过程中就有几种选择。一种是随机地从历年高考和模拟试卷中随机选择一批题目来做,以此来提升考试成绩。但是这样做的话所需要的时间也比较长,针对性也不够强;另一种方法是每个学生建立自己的错题本,用来记录自己容易做错的习题,反复地巩固自己做错的题目,通过多次复习自己做错的题目来巩固自己的易错知识点,逐步提升自己的考试成绩。其主动学习的思路就是选择一批容易被错分的样本数据,让人工进行标注,再让机器学习模型训练的过程

在机器学习的建模过程中,通常包括样本选择,模型训练,模型预测,模型更新这几个步骤。在主动学习这个领域则需要把标注候选集提取人工标注这两个步骤加入整体流程,注意以下概念:

  • 机器学习模型:包括机器学习模型的训练和预测两部分;
  • 待标注的数据候选集提取:依赖主动学习中的查询函数(Query Function);
  • 人工标注:专家经验或者业务经验的提炼;
  • 获得候选集的标注数据:获得更有价值的样本数据;
  • 机器学习模型的更新:通过增量学习或者重新学习的方式更新模型,从而将人工标注的数据融入机器学习模型中,提升模型效果。

在主动学习领域,其关键在于如何选择出合适的标注候选集给人工进行标注,而选择的方法就是所谓的查询策略(Query Strategy)。查询策略基本上可以基于单个机器学习模型,也可以基于多个机器学习模型,在实际使用的时候可以根据情况来决定。整体来看,主动学习都是为了降低标注成本,迅速提升模型效果而存在的。

2.3用SDE提高语义分割表现

自监督深度估计(SDE)旨在从立体图像对或单目视频的几何关系中学习深度估计。由于视频的可用性更好,我们使用后一种方法,即神经网络估计两幅连续图像的深度和相机运动(camera motion),并在可微扭曲后计算光度损失(photometric loss)。在近期工作中,该方法得到了改进。

语义分割和SDE的结合已经在以前的工作中进行了研究,目的是改进深度估计。过去的工作同时学习这两项任务从teacher语义分割网络中提取知识来指导SDE。为了进一步利用语义分割和SDE之间的一致性,有工作提出了额外的损失项,以鼓励深度不连续性和分割轮廓之间的空间接近性。

与这些工作相比,本论文的目标不是改进SDE,而是半监督语义分割。Jiang等人利用光流计算的相对深度代替ImageNet预训练进行语义分割。相比之下,本论文还研究了SDE的多任务学习和语义分割,并表明将SDE与ImageNet功能相结合可以进一步提高性能。Novosel等人和Klingner等人通过联合学习SDE来提高语义切分性能。然而,在使用半监督的数据分割和基于SDE的自动深度估计的基础上,他们提出了挑战。从另一个角度支持SDE用于语义分割的另一项工作,展示了改进的噪声和攻击鲁棒性。

3.Method

在本节中,将介绍三种使用自监督深度估计(SDE)提高语义分割性能的方法。他们关注语义分割的三个不同方面,包括注释数据选择、数据增广和多任务学习。给定来自same domain的 N N N幅图像和 K K K幅图像序列,第一种方法是注释自动数据选择,使用在 K K K(未标记)幅序列上学习的SDE从 N N N幅图像中选择 N A N_{A} NA张图像进行人类注释。第二种方法称为DepthMix,它利用学习到的SDE从成对的标记图像及其注释中创建几何上合理的“虚拟”训练样本(见图1)。第三种方法是在多任务框架下,将SDE作为辅助任务学习语义分割(见图2)。结合SDE和图像分类的多任务预训练过程加强了学习。
fig4

  • 图2:根据第3.3节,使用SDE作为辅助任务学习语义分割的架构。虚线路径仅在训练期间使用,并且仅当图像序列和(或)分割Ground Truth可用于训练样本时使用。

对于SDE,遵循Godard等人的方法,将在下文中简要介绍。首先训练一个深度估计网络 f D f_{D} fD来预测目标图像的深度,并训练一个姿势估计网络 f T f_{T} fT来估计来自目标图像和源图像的相机运动。深度和姿势(pose)用于产生可微扭曲,以将源图像转换为目标图像。目标图像和多个扭曲源帧之间的光度误差由像素最小值组合而成。此外,对静止像素进行遮罩,并应用边缘感知深度平滑项,最终得到自监督深度损失 L D L_{D} LD

  • 来自论文 “Digging into self-supervised monocular depth estimation”

3.1.Automatic Data Selection for Annotation

我们使用SDE作为proxy任务,从一组 N N N个未标记的样本中选择 N A N_{A} NA个样本,供人创建语义分割标签。与标准的主动学习周期类似,选择是分多个步骤逐步进行的(模型训练→ 查询选择→ 注释→ 模型训练)。然而,我们的数据选择是完全自动的,不需要人工参与,因为注释是由代理任务SDE完成的。

G , G A , G U G,G_{A},G_{U} G,GA,GU表示整个图像集,选定标注的子集,未选定标注的子集,最初: G A = ∅ , G U = G G_{A}=\empty,G_{U}=G GA=,GU=G。selection是由两个标准驱动的:多样性和不确定性。多样性采样鼓励所选图像具有多样性,覆盖不同的场景。不确定性(难分类性)采样有利于添加在当前 G A G_{A} GA上训练的模型的决策边界附近(具有高度不确定性)的未标记图像。对于不确定性采样,我们需要用 G A G_{A} GA训练和更新模型。每次添加新图像时重复此操作是低效的。为了提高效率,我们将选择分为 T T T个步骤,只对模型进行 T T T次训练。在每一步 t t t中, n t n_{t} nt张图像被选择并从 G U G_{U} GU移动到 G A G_{A} GA,所以: ∑ t = 1 T n t = N A \sum_{t=1}^{T}n_{t}=N_{A} t=1Tnt=NA。在每步 t t t后,模型在 G A G_{A} GA上训练,在 G U G_{U} GU上测试,为 t + 1 t+1 t+1步获得最新的不确定度。

Diversity Sampling

为了确保选择的带注释样本足够多样化,能够很好地代表整个数据集,我们使用了一种迭代的最远点采样,该采样基于SDE网络中间层计算的特征 Φ S D E \Phi^{SDE} ΦSDE上的L2距离。在步骤 t t t,对于 n t n_{t} nt的每个样本,我们选择 G U G_{U} GU中与当前注释集 G A G_{A} GA距离最大的一个。通过将一个图像从 G U G_{U} GU移动到 G A G_{A} GA,迭代地扩展所选样本集 G A G_{A} GA,直到收集到 n t n_{t} nt个图像: G U = G U / { I i } a n d G A = G A ∪ { I i } G_{U}=G_{U}/\left\{I_{i}\right\}andG_{A}=G_{A}\cup\left\{I_{i}\right\} GU=GU/{Ii}andGA=GA{Ii} i = a r g m a x I i ∈ G U m i n I j ∈ G A ∣ ∣ Φ i S D E − Φ j S D E ∣ ∣ 2 i=argmax_{I_{i}\in G_{U}}min_{I_{j}\in G_{A}}||\Phi^{SDE}_{i}-\Phi^{SDE}_{j}||_{2} i=argmaxIiGUminIjGAΦiSDEΦjSDE2

Uncertainty Sampling

虽然多样性抽样能够选择不同的新样本,但它不知道语义分割模型对这些样本的不确定性。不确定度抽样旨在选择困难的样本,例如,使用当前 G A G_{A} GA训练的模型无法很好地处理 G U G_{U} GU中的样本。为了训练该模型,主动学习通常使用人在回路策略为选定样本添加注释。在这项工作中,我们使用了一个基于自监督注释的代理任务,该任务可以自动运行,从而使该方法更加灵活和高效。由于我们的目标任务是单幅图像的语义分割,我们选择使用单幅图像深度估计(SIDE)作为代理任务。重要的是,由于我们的SDE框架, G G G可以使用深度伪标签(depth pseudo-labels)。使用这些伪标签,我们在 G A G_{A} GA上训练了SIDE方法,并在 G U G_{U} GU上测量其深度预测的不确定性。由于单幅图像的语义分割和SIDE高度相关,因此产生的不确定性信息丰富,可用于指导我们的采样过程。由于Depth student模型仅在 G A G_{A} GA上训练,因此它可以具体地近似候选样本相对于 G A G_{A} GA中已选择样本的难度。student在每个步骤 t t t中从头开始训练,而不是从 t − 1 t-1 t1开始微调、避免陷入之前的局部最小值。


注意,SDE方法是在更大的未标记数据集(即 K K K图像序列)上训练的,可以为SIDE方法提供良好的指导。

SDE在图像序列上训练,SIDE在单张图像上由SDE指导训练。


不确定性由L1距离下对数刻度空间中学生网络 f S I D E f_{SIDE} fSIDE和教师网络 f S D E f_{SDE} fSDE之间的视差误差表示: E ( i ) = ∣ ∣ l o g ( 1 + f S D E ( I i ) ) − l o g ( 1 + f S I D E ( I i ) ) ∣ ∣ 1 E(i)=||log(1+f_{SDE}(I_{i}))-log(1+f_{SIDE}(I_{i}))||_{1} E(i)=log(1+fSDE(Ii))log(1+fSIDE(Ii))1由于远距离目标的视差差异较小,因此使用对数标度来避免近距离目标主导的损失。

综合的采样标准为: i = a r g m a x I i ∈ G U m i n I j ∈ G A ∣ ∣ Φ i S D E − Φ j S D E ∣ ∣ 2 + λ E E ( i ) i=argmax_{I_{i}\in G_{U}}min_{I_{j}\in G_{A}}||\Phi^{SDE}_{i}-\Phi^{SDE}_{j}||_{2}+\lambda_{E} E(i) i=argmaxIiGUminIjGAΦiSDEΦjSDE2+λEE(i)其中, λ E \lambda_{E} λE是平衡参数。对于多样性抽样,我们仍然使用SDE特征,而不是SIDE student特征,因为SDE是在整个数据集上训练的,这为多样性估计提供了更好的特征。当 n t n_{t} nt张图像被选择,新的SIDE student就被训练。在算法1中, ∑ t ′ = 1 t n t ′ \sum_{t'=1}^{t}n_{t'} t=1tnt描述了第 t t t步结束时的 G A G_{A} GA大小。
fig5

3.2.DepthMix Data Augmentation

受最近成功的数据增强方法的启发,我们提出了一种称为DepthMix的算法,利用自监督深度估计,在混合过程中保持场景结构的完整性,该算法混合了成对的图像及其(伪)标签,以生成更多的语义分割训练样本。

给定两张大小相同的图像 I i I_{i} Ii I j I_{j} Ij,我们想要复制 I i I_{i} Ii中的一些区域并粘贴到 I j I_{j} Ij中,得到一个虚拟样本 I ′ I' I。被复制的区域被mask M M M联系,这是一个与两张图像大小相同的二值图像。虚拟样本的创建过程为: I ′ = M ∘ I i + ( 1 − M ) ∘ I j I'=M\circ I_{i}+(1-M)\circ I_{j} I=MIi+(1M)Ij其中, ∘ \circ 代表element-wise product。同理,两幅图像的标签 S i , S j S_{i},S_{j} Si,Sj也可以生成虚拟标签 S ’ S’ S。这种混合可以分别应用于使用人工GT或伪标签的标记数据和未标记数据。现有方法有不同的生成 M M M的方式,比如:随机采样的矩形区域,或随机选择的对象段(object segments)。在这些方法中,没有考虑场景的结构,也没有区分前景和背景。我们发现用这些方法合成的图像经常会破坏物体之间的几何关系。例如,可以将远处的对象复制到近景对象上,或者仅将中距离对象的未包含部分复制到另一个图像上。想象一下,看到一个行人站在一辆汽车的顶部,或者通过一个建筑的洞看到天空是多么奇怪(如图1所示)。

我们的DepthMix旨在缓解这个问题。它使用两幅图像的估计深度 D ^ i \widehat{D}_{i} D i D ^ j \widehat{D}_{j} D j来生成符合几何概念的混合掩模 M M M。通过仅选择 I i I_{i} Ii中深度值小于 I j I_{j} Ij中相同位置处像素深度值的像素来实现:
fig6
其中 a a a b b b是像素索引,而 ϵ \epsilon ϵ是一个较小的值,以避免自然位于同一深度平面(如道路或天空)的对象发生冲突。通过使用此 M M M,DepthMix考虑两幅图像中对象的深度,因此只有较近的对象才能遮挡较远的对象。我们用图1中的一个例子来说明了DepthMix的这一优势。

3.3.Semi-Supervised Semantic Segmentation

在本节中,我们利用标记图像数据集 G A G_{A} GA、未标记图像数据集 G U G_{U} GU K K K个未标记图像序列来训练语义分割模型。我们首先讨论了如何利用SDE对图像序列进行语义分割。然后,我们将展示如何使用 G U G_{U} GU来进一步提高性能。

Learning with Auxiliary Tasks

为了联合学习语义分割与SDE,我们使用共享的编码器 f θ E f_{\theta}^{E} fθE和分离的预测深度与语义分割的解码器 f θ D , f θ S f_{\theta}^{D},f_{\theta}^{S} fθD,fθS(见图2)。深度估计分支使用SDE的损失 L D L_{D} LD训练,语义分割分支 g θ S = f θ S + f θ E g_{\theta}^{S}=f_{\theta}^{S}+f_{\theta}^{E} gθS=fθS+fθE被训练(使用pixel-wise的交叉熵 L c e L_{ce} Lce)。

为了正确初始化姿态估计网络和depth解码器,该架构首先在 K K K个未标记图像序列上进行训练,基于SDE方法。通常,我们使用ImageNet权重初始化编码器,因为它们提供了在图像分类过程中学习到的有用语义特征。为了避免在SDE预训练期间忘记语义特征,我们利用了当前瓶颈特征 f θ E f_{\theta}^{E} fθE和编码器在ImageNet权重(不更新)上的瓶颈特征 f I E f_{I}^{E} fIE之间的特征距离损失: L F = ∣ ∣ f θ E − f I E ∣ ∣ 2 L_{F}=||f_{\theta}^{E}-f_{I}^{E}||_{2} LF=fθEfIE2深度预训练的损失是SDE损失和ImageNet特征距离损失的加权和: L P = L D + λ F L F L_{P}=L_{D}+\lambda_{F}L_{F} LP=LD+λFLF为了将深度估计的迁移学习与语义分割结合起来,使用 f θ D f_{\theta}^{D} fθD的权重初始化 f θ S f_{\theta}^{S} fθS。为了有效地进行多任务学习,我们使用注意力引导的蒸馏模块在两个解码器之间交换有用的中间特征。

Learning with Unlabeled Images

为了进一步利用未标记的数据集 G U G_{U} GU,我们使用mean teacher算法生成伪标签,该算法通常用于半监督学习。为此,将指数移动平均(exponential moving average)应用于语义分割模型 g θ S g_{\theta}^{S} gθS的权重以得到 mean teacher θ T \theta_{T} θT的权重: θ T ′ = α θ T + ( 1 − α ) θ \theta'_{T}=\alpha\theta_{T}+(1-\alpha)\theta θT=αθT+(1α)θ为了生成伪标签,将类 C C C上的argmax应用于平均教师的预测。 S U = a r g m a x c ∈ C ( g θ T S ( I U ) ) S_{U}=argmax_{c\in C}(g_{\theta_{T}}^{S}(I_{U})) SU=argmaxcC(gθTS(IU))mean teacher可以被视为一个临时集成,从而对伪标签进行稳定的预测,而argmax确保了可靠的预测。

对于半监督设置,使用标记样本 ( I A , S A ) (I_{A},S_{A}) (IA,SA)和伪标记样本 ( I U , S U ) (I_{U},S_{U}) (IU,SU)训练分割网络: L S S L = L c e ( g θ S ( I A ) , S A ) + λ P ( S U ) L c e ( g θ S ( I U ) , S U ) L_{SSL}=L_{ce}(g_{\theta}^{S}(I_{A}),S_{A})+\lambda_{P}(S_{U})L_{ce}(g_{\theta}^{S}(I_{U}),S_{U}) LSSL=Lce(gθS(IA),SA)+λP(SU)Lce(gθS(IU),SU)选择 λ P ( S U ) \lambda_{P}(S_{U}) λP(SU)来反映所表示的伪标签的质量,伪标签由超过阈值 τ \tau τ的像素部分表示,以预测最可信的类别概率 m a x c ∈ C ( g θ S ( I U ) ) max_{c\in C}(g_{\theta}^{S}(I_{U})) maxcC(gθS(IU))。我们合并了DepthMix的样本 ( I ′ , S ′ ) (I',S') (I,S),DepthMix的样本来自 G A ∪ G U G_{A}\cup G_{U} GAGU注意 G A ∪ G U G_{A}\cup G_{U} GAGU最开始都没有标注,每次数据选择出了 G A G_{A} GA才开始进行标注,所以是半监督的,因为不需要完全标注。半监督学习现在改为: L S S L = L c e ( g θ S ( I A ) , S A ) + λ P ( S ′ ) L c e ( g θ S ( I ′ ) , S ′ ) L_{SSL}=L_{ce}(g_{\theta}^{S}(I_{A}),S_{A})+\lambda_{P}(S')L_{ce}(g_{\theta}^{S}(I'),S') LSSL=Lce(gθS(IA),SA)+λP(S)Lce(gθS(I),S)


Mean teacher:模型即充当学生,又充当老师。作为老师,用来产生学生学习时的目标,作为学生,利用老师模型产生的目标来学习。


4.Experiments

4.1.实验细节

数据集
在Cityscapes数据集上评估了方法,该数据集由2975个训练图像和500个验证图像组成,其中包含来自欧洲街道场景的语义分割标签(19类标注)。我们将图像的采样减少到1024×512像素。此外,训练中还使用了512×512大小的随机裁剪和随机水平翻转。重要的是,Cityscapes提供20个序列(未标记帧),10个序列(标记帧),用于SDE训练。在半监督分割过程中,只使用最初的2975个标记的训练图像。它们被随机分为一个有标签和一个无标签的子集。
网络
网络由一个共享的ResNet101编码器和一个单独的用于分割和SDE的解码器组成,该编码器的输出步长为16。解码器由一个ASPP块和另外四个带跳跃连接的上采样块组成,该块用于聚合来自多个尺度的特征。对于SDE,上采样块具有各自标度的视差侧输出。为了有效地进行多任务学习,遵循PAD Net,在第三个解码器块之后部署了一个注意力引导的蒸馏模块。它的目的是在分割和深度估计之间交换有用的特征。

4.2.半监督语义分割

首先,我们将我们的方法和几种先进的半监督学习方法进行比较。我们在Tab1中总结了结果。对于不同数量的标记样本,显示了半监督方法及其baseline(仅在标记数据集上训练)的性能(mIoU百分比)。由于我们的baseline使用了一个更强大的网络体系结构,这是由于带有ASPP的U-Net解码器,而不是以前大多数工作使用的DeepLabv2解码器,因此我们还使用我们的网络体系结构和训练参数重新实现了最先进的方法ClassMix,以确保直接比较。

fig7
fig8

  • 图3:与ClassMix相比,论文方法对100个标记样本的语义分割示例。

fig9

  • 图4:针对372个标记样本(DM:SDE多任务学习、XD:使用伪标签的DepthMix、S:Data Selection),改进了class-wise的IoU的baseline性能。

fig10

  • 图5:DepthMix生成的数据增强结果

个人总结

1.在图像序列上训练深度估计分支SDE,后面可以基于深度估计在有标注数据上做数据增强;

2.在序列上训练好的SDE指导SIDE做单图深度估计,每次都在新的 G A G_{A} GA上训练SIDE,并利用深度估计的视差误差去选择要标注的样本(符合不确定性),另外,考虑分别来自 G A G_{A} GA G U G_{U} GU中的样本去选择样本(符合多样性)。

3.对于有标注(不管是伪标签还是人工的)的序列,SDE可以与语义分割分支联合学习。

4.用mean teacher生产伪标签。

5.数据集输入时,被分成有标签和无标签的两个子集,模型先在有标签的样本上训练(baseline),下一步,由数据选择器从所有样本中选出active learning需要的样本,此时mean teacher对其中无标注的样本生成伪标签,DepthMix对目前有标签(人工标记的和伪标签的)的样本进行数据增强,模型在合并后的样本上训练语义分割分支。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值