A Weakly Supervised Convolutional Network for Change Segmentation and Classification
Abstract
完全监督的变化检测方法要求难以获得像素级标签,而弱监督的方法可以使用图像级标签进行训练。但是,大多数这些方法都需要将变化的图像和不变的图像对组合在一起进行训练。因此,这些方法不能直接用于仅更改的图像对可用的数据集。我们介绍W-CDNet,这是一种新型的弱监督变更检测网络,可以使用图像级语义标签进行训练。此外,可以使用两种不同类型的数据集来训练W-CDNet,这些数据集要么仅包含更改的图像对,要么包含更改的图像和未更改的图像对的混合。由于我们使用图像级语义标签进行训练,因此我们同时创建了一个更改掩码,并为单标签图像添加了更改后的对象标签。 W-CDNet使用W形暹罗U型网络从图像对中提取特征图,然后将其进行比较以创建原始变更掩码。我们模型的核心部分是变更分段和分类(CSC)模块,它通过使用自定义重新映射块,然后用变更掩码对当前输入图像进行分段,来在隐藏层学习准确的变更掩码。分割的图像用于预测图像级别的语义标签。仅当更改掩码实际标记了相关更改时,才能预测正确的标签。这迫使模型学习准确的更改掩码。我们展示了我们的方法的分割和分类性能,并在AICD和HRSCD,两个公共航空影像变化检测数据集以及食物垃圾变化检测数据集上取得了最佳结果。我们的代码位于:\
Introduction
变更检测[1,2]是一项重要的计算机视觉任务。它可用于遥感[3,4],视频监控[5]和街景成像[6,7]等。这是一项具有挑战性的任务,因为必须将两个时间上不同的图像之间的相关变化与噪声以及不相关的语义变化区分开。一个图像对可以属于以下两个类别之一:已更改,这意味着两个图像之间存在相关更改;或者未更改,这意味着根本没有更改,或者只有不相关的更改。用户必须预先定义什么才算是相关更改。
许多数据驱动的变化检测方法都是使用像素级标签进行训练的[6,7,8]。但是,创建像素级变化检测数据集既昂贵又耗时,因为必须手动比较两个图像并在像素级上进行标记。结果,需要可以用更简单的标签(例如图像级标签或边界框)训练的变化检测方法。另外,许多弱监督的变更检测方法需要变更和不变的图像进行训练。这降低了它们对实际可用或可以通过图像增强生成不变图像的数据集的可用性。
在这项工作中,我们提出了W-CDNet,这是一种数据驱动的变更检测网络,可以使用图像级语义标签进行训练。通过图像级语义标签,我们的意思是标签不仅描述了图像对的二进制状态(更改或未更改,还用于其他作品[9,10,11])。因此,在发生食物浪费数据集的情况下,更改后的标签会进一步分为几个语义标签,例如苹果或面包。
与其他方法[9,10,11]相比,我们的方法可以采用以下两种方法之一进行训练:(i)仅使用更改的图像对,这意味着数据集中的每个图像对至少包含一些相关更改; (ii)混合使用已更改和未更改的图像对。
图1显示了我们的W-CDNet模型的高级概述。我们使用基于两个具有共同权重的U-Net [13]的Wshaped暹罗网络[12]进行特征提取。一组自定义比较块对来自暹罗网络的特征图进行比较,并创建一个高分辨率特征图,其中包含有关两个图像之间差异的信息。我们自定义的变更细分和分类(CSC)模块重新映射这些功能,以创建有意义的变更掩码,然后将其用于分割当前输入图像。分割的图像被编码,并与残差块的特征向量一起被馈送到预测图像级别标签的分类器。
如果在CSC模块内创建的更改掩码不包含相关更改,则分类器将无法预测正确的图像级标签。同时,由于有了我们的重新映射功能(CSC模块的一部分),该模型不能仅专注于完整图像。因此,该模型被迫学习一个标记不正确的变化掩码,该掩码标记相关的变化并抑制无关的变化,而监督却很弱。此外,我们集成了一个CRF-