弱监督语义分割 OME

本文提出了一种针对遥感图像的多类别弱监督语义分割框架,通过图像级别标签过滤、不确定性评估和迭代训练,实现了高质量的分割效果。框架包括筛选不合适的训练样本,使用共现矩阵评估数据集,生成像素级伪掩模并评估不确定性,以及通过不确定性权重掩模进行分割网络迭代训练。实验表明,该框架在多个遥感数据集上实现了与全监督相似的精度,优于使用多个二进制模型的方法。
摘要由CSDN通过智能技术生成

One Model Is Enough: Toward Multiclass Weakly Supervised Remote Sensing Image Semantic Segmentation

摘要 - 遥感图像的语义分割对于大规模土地覆盖制图非常有效,但这需要大量的训练数据以进行繁重的像素级标注。由于图像级别标签容易获取,因此基于它们的弱监督语义分割(WSSS)引起了广泛关注。然而,现有的遥感图像的图像级别WSSS方法主要侧重于二进制分割,难以应用于多类别情景。本研究提出了一种综合框架,用于遥感图像的多类别图像级别WSSS,包括适当的图像级别标签生成、高质量的像素级伪掩模生成以及分割网络的迭代训练。具体而言,提出了一种训练样本筛选方法,以及一种数据集共现评估指标,以展示适当的图像级别训练样本。利用多类别类别激活图(CAMs),提出了一种基于不确定性驱动的像素级加权掩模,以在训练分割网络时减轻伪掩模中的标签噪声过拟合。大量实验证明,所提出的框架可以在使用图像级别标签的情况下实现高质量的多类别WSSS性能,分别为ISPRS Potsdam和Vaihingen数据集的像素级标签的平均交并集(mIoU)达到94.23%和90.77%。此外,对于具有更复杂景观的DeepGlobe数据集,WSSS框架可以实现接近完全监督情况下的准确性,达到了99%左右。此外,我们进一步证明,与采用多个二进制WSSS模型相比,直接训练多类别WSSS模型可以获得更好的结果,这可以为多类别应用场景的遥感图像的WSSS提供新思路。我们的代码公开可用,网址为https://github.com/NJU-LHRS/OME。

关键词 - 类别激活图 (CAM), 图像级别标签, 多类别, 像素级别不确定性, 遥感图像 (RSI), 弱监督语义分割 (WSSS).

引言

随着地球观测技术的蓬勃发展,高空间分辨率的大规模遥感图像(RSIs)已经变得越来越容易获取,这满足了及时和细粒度土地覆盖制图的基本需求。语义分割旨在将地表覆盖类型分配给遥感图像中的每个像素,是土地覆盖制图的一种广泛使用且强大的技术。在大数据的推动和深度学习方法的支持下,语义分割取得了前所未有的准确性和效率[1],[2]。然而,基于深度学习的语义分割方法依赖于大量的像素级别手动标注,其收集是耗时且劳动密集的。据报道,标注一个1024×1024的RSI需要2.5小时[1],这显然比标注Cityscapes[3]所需的时间要长,Cityscapes是用于自然图像语义分割的数据集,这表明了标注RSIs的困难性。

为了解决上述问题,已经开始探讨了弱监督条件下对RSIs进行语义分割[4],[5]。与使用像素级标签的语义分割相比,称为全面监督语义分割(FSSS),弱监督语义分割(WSSS)只需要弱标签,由于图像标注以粗粒度形式呈现,因此标注成本更低。弱标注类型包括图像级别注释、点、涂鸦和边界框等。在这些弱标签的驱动下,WSSS已成功用于云检测[8],[9],水域划分[8],[10],建筑物提取[11],[12],[13],[14],[15],道路提取[16],[17],[18]等任务。

图像级别标注只需要指出图像中是否存在某种地理对象类型,而不需要位置、范围或形状信息。在不同弱标注类型中,针对RSIs的WSSS中,以最低的标注成本吸引了最多的研究关注。为了使用仅有图像级别标注来实现像素级别的语义分割,进行了图像分类网络[19]的训练,以生成类别激活图(CAMs)[20],然后通过阈值处理[9],[21]或用作伪掩模,训练全卷积网络(FCN)[22]的分割网络[8],[13],[15]。然而,关于RSIs的图像级别WSSS研究主要关注仅包括单一类别,即从背景中分割出特定目标的二元任务,几乎不用于需要提取多类别信息的任务。RSIs通常涉及复杂的情景,涉及各种物体的分布,多类别情况占绝大多数[23]。此外,RSIs经常需要提取多类地理信息,例如,土地覆盖制图需要多类别的语义分割方法。

多类别WSSS任务似乎可以通过多次采用二元WSSS方法来解决,但会面临三个问题。首先,与训练一个多类别WSSS模型相比,训练多个二元WSSS模型显然需要大幅增加时间和空间成本。其次,将不同二元结果组合成统一的多类别结果时,难以公正地确定对于具有不同预测的混淆像素的最终类别。第三,二元WSSS模型只能识别单一类别,无法全面考虑不同类别之间的差异和关系。

对于自然图像的多类别WSSS,已经取得了卓越的研究进展,这些方法主要遵循生成CAMs、从CAMs生成和优化像素级伪掩模,以及使用伪掩模训练分割网络的过程。与自然图像相比,RSIs的多类别WSSS面临更多挑战。一方面,RSI图像补丁面临更严重的共现问题,这是计算机视觉领域经常讨论的问题,严重影响分类网络的判别能力。另一方面,RSIs包含各种地理类别,导致单个图像补丁内的目标分布复杂,增加了分类网络准确识别物体和生成伪掩模时标签错误的困难。一项关于基于明确像素级约束的RSIs多类别WSSS的开创性研究提出了[23],并在三个RSI数据集上取得了良好的准确性,但由于未考虑前述问题,仍有很大改进空间。

此外,对于多类别WSSS,似乎采用多次使用二元WSSS方法也可以实现目标。那么,使用多类别WSSS方法和二元WSSS方法进行图像级别多类别WSSS之间有何区别呢?

为了解决上述问题,我们提出了一个全面的框架,用于RSIs的图像级别多类别WSSS,包括图像级别标签生成、像素级伪掩模生成和分割网络的迭代训练。我们设计了一个共现矩阵(CM co-occurrence matrix)来确定图像级别标签的适宜性,以及一个标签过滤策略,用于训练具有更高判别能力的分类网络。此外,我们提出了一种由多类别CAM驱动的像素级别不确定性评估方法,用于重新加权伪掩模,以减轻标签噪声的干扰,并增强迭代训练中分割网络的效能。对三个遥感数据集的实验表明,所提出的WSSS框架可以实现与FSSS相媲美的多类别准确性。此外,我们发现,训练多类别分类网络可以生成比训练多个二元分类网络更好的CAMs,这不仅可以说明多类别WSSS的含义,还可以为具有图像级别标签的二元WSSS任务提供更多启发。

本研究的主要贡献可以总结如下。

  • 我们提出了一个基于图像级别标签的RSIs多类别WSSS的全面有效框架。三个数据集的评估表明,WSSS框架可以实现出色的结果,即多达90%以上的FSSS准确性。
  • 考虑到RSIs的特殊性,我们提出了一种数据过滤方法,以筛除不适当的训练样本,并提出了一种称为CM的图像级别标签评估方法,帮助训练具有更好判别能力的分类网络。
  • 我们提出了一种由多类别CAM驱动的像素级别不确定性评估方法,用于重新加权伪掩模,以减轻标签噪声的干扰,并增强迭代训练中分割网络的效能。
  • 我们发现,与使用多个二元CAM进行多类别WSSS相比,统一的多类别CAM可以实现更高质量的结果,这不仅可以说明多类别WSSS的含义,还可以为具有图像级别标签的二元WSSS任务提供更多启发。

相关工作

A. 遥感图像的弱监督语义分割

在遥感领域,利用基于弱标签的语义分割进行地理信息提取引起了广泛关注[24],其中图像级别标签被最广泛使用。一方面,一些研究直接利用CAMs进行RSI语义分割。通过简单地将二元CAMs进行阈值化,进行农田分割[21]。在分类网络中使用了注意机制,并结合条件随机场(CRF)后处理以检测破坏区域[25]。提出了全局卷积池化操作以增强特征图的表示[9],在预测CAM时去掉了池化层以提高分辨率。提取了多个特征图以捕获一系列类别特定的分层显著性图,然后基于超像素和低秩矩阵恢复进行融合,以提取住宅区域[26]。

另一方面,大量研究使用CAMs生成伪掩模,作为像素级别监督来训练WSSS的分割网络。超像素被用于改进水/云提取[8]和建筑物检测[11],[15]的伪掩模。引入了不同的CRF用于不同阶段,并说明了RSIs的WSSS的主要因素[13]。结合了对抗攀登[27]和门控卷积以改进CAMs生成伪掩模[12],然后使用AffinityNet和随机游走策略进行改进[28]。使用深度生成模型来改进前景和背景样本的不平衡分布,并使用了一种关于不确定性的联合优化训练策略来减轻伪掩模噪声的负面影响[29]。然而,上述研究仅局限于二元WSSS任务,即基于生成某个特定类别的单一CAM,难以应用于多类别情况。Zhou等人[23]首次探讨了RSIs的多类别CAMs。他们提出了基于自监督等变关注机制(SEAM)框架的显式像素级约束,初步证明了RSIs图像级别多类别WSSS的可行性。

除了图像级别标签,还研究了其他形式的弱标签来用于RSIs的WSSS,其中绝大多数研究仍涉及二元情况。例如,点标签用于农田分割[21],道路提取[16]和水域划分[10]。涂鸦用于道路检测[17],[18],使用Open Street Map等中心线状开源数据以及建筑物检测[30]。边界框用于建筑物提取[31],[32],达到了与完全监督情况相媲美的性能。除了上述的二元WSSS任务,还探索了使用点标签[33],[34]或涂鸦[35]进行土地覆盖制图的多类别WSSS。

B. 使用图像级别标签的多类别WSSS

图像级别WSSS在计算机视觉领域引起了广泛关注,其中算法是针对多类别数据集(如VOC2012 [36]和COCO [37])开发的。目前,基于图像级别标签的WSSS主要集中在三个方面:CAM生成的优化、伪掩模生成的优化以及分割网络训练的改进。

生成CAMs是实现图像级别标签WSSS的第一步,它作为后续流程的重要基础。通过自监督方法,强制一致性正则化是提高CAM的细化度的有效技术。通过对变换后的图像[38]、分开的图块[39]、互补的图块[40]、局部图块[41]、重新校准特征[42]或特征原型[43]的CAM进行一致性正则化,可以利用更多的构造特征和监督信号来改进CAM。

此外,CAM通常侧重于判别对象的部分,因此许多工作致力于改善对象响应的完整性。这些方法包括使用膨胀卷积[44]、随机失活[45]、擦除机制[46]、[47]、[48]、强加约束或干扰[27]、[49]和其他技术[50]、[51]、[52]、[53]。

伪掩模生成的优化旨在从CAMs提取的种子掩模进行改进,以生成质量更高的伪掩模。一种著名的改进方法是通过随机游走算法实现的基于亲和力的方法[28],[54]、[55]、[56]、[57],它将初始对象区域传播到邻近的语义相似像素。此外,还提出了其他方法,包括种子区域增长[58]、[59]、区域擦除[60]、[61]、像素级网络训练[49]、[62]和多重推理[48]、[63],用于生成高质量的伪掩模。 改进分割网络训练旨在充分利用不完善伪掩模的监督信息来训练稳健的分割模型。迭代训练是一种常用的训练模式[64],可以逐渐改善边界准确性和分割质量。此外,许多研究设计了正则化损失函数来挖掘更多信息或减轻伪掩模标签错误的影响,如边界约束损失[65]、CRF损失[66]、[67]和度量学习损失[68]。考虑到深度网络首先适应清晰的注释,然后逐渐记忆错误标签的性质,提出了自适应早期学习校正方法[69],以假装过拟合并改进伪掩模。
在这里插入图片描述

方法

图1显示了所提出的多类别WSSS框架,包括三个步骤:图像级别标签过滤和评估、像素级伪掩模生成和不确定性评估,以及由不确定性驱动的分割网络迭代训练。给定图像级别WSSS数据集,首先过滤掉不合适的训练样本,然后使用CM的数据集评估方法来测量数据集是否适合训练具有更好判别能力的分类网络。然后,使用图像级别数据集训练分类网络以生成CAMs,通过CAMs导出像素级伪掩模和不确定性掩模。最后,通过不确定性掩模生成的权重掩模对伪掩模进行加权,以减轻标签噪声的影响。假定经过训练的分割网络可以输出更好的伪掩模,通过迭代训练逐渐改进分割网络。

A. 图像级别标签过滤与评估

给定WSSS数据集 D = I , L D = {I, L} D=I,L,包括 N N N个图像 I ∈ R 3 × H × W I\in\mathbb{R}^{3\times H\times W} IR3×H×W以及相应的图像级别标签 L ∈ R 1 × C L\in\mathbb{R}^{1\times C} LR1×C,其中 C C C表示类别数,直接使用所有N个样本来训练分类网络是不合适的。与自然图像的面向对象成像方式不同,RSI图块是通过剪裁获得的。因此,很难保证每个类别的上下文信息都是完整的。对于只有几个像素属于某个类别的样本(考虑一个极端情况,其中建筑物的孤立像素位于图像的角落),将这种样本视为拥有该类别是不合理的;否则,它将混淆分类网络的学习。因此,我们排除了那些某些类别的像素数量较少的样本,以训练分类网络。经过筛选的数据集 D ′ = I ′ , L ′ D' = {I',L'} D=IL可以支持分类网络充分学习类别特征。

经过筛选的数据集 D ′ D' D仍然不一定适合训练分类网络,因为可能存在严重的共存问题。理想情况下,数据集应具有足够的数量和丰富的类别分布。然而,在实际应用中,数据量通常有限,而RSI中的对象分布常常具有一定的规律,例如汽车总是停放在道路上。因此,RSI数据集中的共存问题可能会阻碍分类网络区分不同的类别,如汽车和道路。我们提出了一种评估标准,称为CM,用于测量数据集的类别共存程度,并确定其是否适合训练分类网络。

生成CM的过程如图2所示。特别是,对于每个图像 I ∈ I ′ I ∈ I' II,根据其图像级别标签 L L L,计算矩阵 A i j A_{ij} Aij,如式(1)所示,表示类别 i i i j j j 的存在关系,即如果图像中存在类别 i i i j j j,则 A i j = 1 A_{ij} = 1 Aij=1;否则,为0。
A i j = { 1 , L i = 1  and  L j = 1 0 , else ( 1 ) A_{ij}=\begin{cases}1,&L_i=1\text{ and }L_j=1\\0,&\text{else}&\end{cases}\quad\quad\quad\quad(1) Aij={1,0,Li=1 and Lj=1else(1)

然后,计算 D ′ D' D的CM,如式(2)所示,其中 N ′ N' N表示 D ′ D' D中的样本总数。
C M i j ( D ′ ) = ∑ N ′ A i j ∑ N ′ A i i , i , j ∈ C . ( 2 ) \mathrm{CM}_{ij}(\boldsymbol{D}^{\prime})=\frac{\sum_{N^{\prime}}A_{ij}}{\sum_{N^{\prime}}A_{ii}},\quad i,j\in C.\quad\quad\quad\quad(2) CMij(D)=NAiiNAij,i,jC.(2)

以图2中的最终CM为例,可以看到 C M 51 CM_{51} CM51的值很高,为0.99,表示在数据集中所有具有汽车的图像中,99%的图像也具有不透水表面类别,这可能会导致汽车更容易被判断为不透水表面。如果数据集的整体CM值很高,那么在该数据集上训练具有判别能力的分类网络将变得困难。在这种情况下,需要采取额外的操作来缓解这个问题,例如扩展数据量。基于具有有限数据量的RSI数据集,我们在CM的指导下生成更合适的训练样本,并获得更好的结果,这将在第四节中说明。 好像是在搞域泛化,不确定
在这里插入图片描述

B. 生成像素级伪掩模和评估标签不确定性

借助经过筛选的数据集 D ′ D' D,可以训练分类网络,并通过将全连接层的权重应用于最终特征图[20]来生成CAMs。值得注意的是,已经提出了许多改进CAM和伪掩模的方法,如第二节所总结的。在本研究中,我们通过采用全连接CRF处理[70]来改进CAMs的伪掩模,如式(3)所示,其中P表示最终的伪掩模, C ˉ \bar{C} Cˉ表示CAMs中出现的类别。
P = Argmax ⁡ C ˉ ( Crf ⁡ C ˉ ( M ) ) . ( 3 ) P=\underset{\bar{C}}{\operatorname*{Argmax}}(\underset{\bar{C}}{\operatorname*{Crf}}(\boldsymbol{M})).\quad\quad\quad\quad(3) P=CˉArgmax(CˉCrf(M)).(3)

伪掩模中不可避免地存在标签错误。直接使用不准确的伪掩模会导致分割网络记住错误,从而影响后续的迭代训练。已经提出了一种标签噪声缓解方法[71],根据计算的像素级不确定性,根据权重将交叉熵损失应用于伪掩模。然而,他们使用分割网络评估像素的不确定性,该网络仍然是使用带有嘈杂伪掩模的训练。在本研究中,我们提出了一种伪掩模不确定性评估方法,根据多类别CAM,可以从分割网络的初始训练阶段开始减轻标签噪声的影响,从而提高后续迭代训练的性能。受[71]的启发,噪声总是与前景响应范围有关,我们发现通过CRF对CAM进行缩放操作,不同尺度的方差对不确定区域有更大的响应,可以反映嘈杂伪掩模中的标签噪声。受这一观察启发,我们评估了伪掩模的像素级不确定性,以指导噪声缓解训练。
在这里插入图片描述评估像素级不确定性的框架如图3所示。给定图像 I I I及其CAM M M M,通过具有不同幂因子的指数函数进行不同的类别 c ∈ C ˉ c∈ \bar{C} cCˉ的缩放处理。然后,我们得到经过处理的 K × C ˉ K ×\bar{C} K×Cˉ CAMs M c k M^k_c Mck,其中 k ∈ K , c ∈ C ˉ k∈K,c∈ \bar{C} kKcCˉ K K K是尺度的数量。之后,可以使用CRF和argmax操作提取不同缩放过程下的不同前景掩模,如下所示:
T c k = [ Argmax ⁡ ( Crf ⁡ ( M c k ) ) = = c ] , ∀ c ∈ C ˉ , k ∈ K . ( 4 ) T_c^k=[\operatorname{Argmax}(\operatorname{Crf}(M_c^k))==c],\quad\forall c\in\bar{C},k\in K.\quad\quad\quad\quad(4) Tck=[Argmax(Crf(Mck))==c],cCˉ,kK.(4)

在获取了经过缩放的前景掩模之后,可以通过计算方差来估计不确定性,如下所示:
V a r ( T ) = 1 K − 1 ∑ k = 1 K ( T c k − E ( T c ) ) 2 , ∀ c ∈ C ˉ . ( 5 ) \mathrm{Var}(T)=\frac1{K-1}\sum_{k=1}^K\left(T_c^k-E(T_c)\right)^2,\quad\forall c\in\bar{C}.\quad\quad\quad\quad\mathrm{(5)} Var(T)=K11k=1K(TckE(Tc))2,cCˉ.(5)

最后,将max操作应用于Var(T),以获得最终的像素级不确定性,然后将其标准化为[0, 1],如下所示:
U = Norm ⁡ ( Max ⁡ C ˉ ( Var ⁡ ( T ) ) ) . ( 6 ) U=\operatorname{Norm}\biggl(\operatorname{Max}_{\bar{C}}(\operatorname{Var}(T))\biggr).\quad\quad\quad(6) U=Norm(MaxCˉ(Var(T))).(6)

C. 根据标签不确定性迭代地训练分割网络

在训练分割网络时,采用迭代训练[64],这意味着已经训练好的分割网络用于生成新的伪掩模,以训练新的网络。对于迭代训练,还根据分割网络生成的伪掩模来估计不确定性[71]。像素的较高不确定性表示在伪掩模中被错误标记的可能性较大。因此,权重掩模的计算如下(7),其中对具有较高不确定性的像素分配低权重可以减轻标签噪声的负面影响。
W = 1 − U . ( 7 ) W=1-U.\quad\quad\quad\quad\quad(7) W=1U.(7)
而不是直接将权重掩模作为最终权重,我们将像素级权重Y分配给分割网络的交叉熵损失,如(8)所示,其中t表示迭代轮次,t = 0表示使用CAMs生成的伪掩模进行训练。式(8)中的重新加权操作基于两个观察结果:1)权重W值较低的像素往往被错误标记,应该被忽略;2)具有较高W值的像素往往被正确标记,对于训练分割网络至关重要。值得注意的是,在训练分割网络时,我们使用数据集D中的图像和相应的伪掩模P,而不是筛选后的数据集D’,因为尽管D − D’中的图像不适合训练分类网络,但它们可以提供丰富的信息来监督分割网络的训练。
Y i j = { 1 , 0.5 < W i j < 1 w t , 0.2 < W i j < 0.5 0 , 0 < W i j < 0.2 t = 0 , 1 , 2 , … ( 8 ) Y_{ij}=\begin{cases}1,&0.5<W_{ij}<1\\w_t,&0.2<W_{ij}<0.5\\0,&0<W_{ij}<0.2&\end{cases}\quad t=0,1,2,\ldots\quad(8) Yij= 1,wt,0,0.5<Wij<10.2<Wij<0.50<Wij<0.2t=0,1,2,(8)

结果

A. 实验设置

数据集描述:用于评估提出的WSSS框架的三个多类别RSI数据集如下所述。
  1. ISPRS Potsdam数据集:由38个大小为6000×6000像素、空间分辨率为5厘米的正射影像组成。从原始的四波段IRRGB(红外、红、绿和蓝)中提取了三个波段IRRG(红外、红、绿)。混乱类别在培训和测试中均被忽略,因此数据集包括五种土地覆盖类型:不渗透表面(imp. surf.)、建筑、低植被(low veg.)、树和汽车。根据官方的数据划分方法,除了因注释错误而删除的图像7_10外,使用23个图像进行训练,使用14个图像进行测试。图像被裁剪成256×256像素,重叠128像素以进行增强。用于训练分类网络的图像块通过删除任何类别的像素小于总像素的10%(小汽车的小目标为2.5%)来进行过滤。对于分割网络,我们使用非重叠的图像块进行训训和测试,以确保节省时间和公平评估。
  2. ISPRS Vaihingen数据集:包含33个IRRG图像,平均大小为2494×2064像素,空间分辨率为9厘米。类别与Potsdam数据集相同。根据官方的数据划分方法,使用16个图像进行培训,使用17个图像进行测试。图像被裁剪成128×128像素,重叠64像素,其他设置与Potsdam数据集相同。
  3. DeepGlobe土地覆盖分类挑战数据集:这是第一个公开的具有高分辨率亚米卫星图像的数据集,重点关注农村地区。数据集包括803个尺寸为2448×2448像素的RGB图像,带有像素级标签。数据集标注了七个类别:城市、农业、牧场、森林、水、贫瘠和未知。我们根据命名顺序将数据集分为训练/验证/测试集,分别包括563/120/120张图像。图像被裁剪成306×306像素,不重叠。所有类别的过滤比例均设置为10%。
实现细节:

用于生成CAM和伪掩模的分类网络,使用了几种网络来展示提出的WSSS框架的可靠性。这些方法包括原始CAM(Ori-CAM)[20],背骨网络为ResNet101 [72],SEAM框架[38],背骨网络为ResNet38 [73],Puzzle-CAM [39],背骨网络为ResNet50,具有VGG16的判别区域抑制(DRS)方法[49]以及具有ResNet50的视觉词汇学习(VWL)方法[51]。在训练阶段,使用批量随机梯度下降(SGD)优化器进行20个周期,动量为0.9,权重衰减为0.0005。初始学习率设置为0.01,学习率衰减策略为“poly”。对于分割网络,使用DeepLabV3+ [74],输出步幅为8,背骨网络为ResNet50。使用Adam优化器进行30个周期,初始学习率为0.0002。所有背骨网络都是通过在ImageNet上预训练模型来初始化的,以增强特征提取能力。所有实验都在一台计算机上进行,该计算该计算机配备有英特尔Core i7-11700K CPU、一块NVIDIA GeForce RTX 3080 GPU和64GB内存。

评估指标:

为评估多类别WSSS性能,采用平均交集联合(mIoU)和平均F1分数(mF1),具体公式如下:
mIoU = 1 N c ∑ i = 1 N c T P T P + F N + F P (9) precision = T P T P + F P ( 10 ) recall = T P T P + F N (11) mF1 = 1 N c ∑ i = 1 N c 2 × precision × recall precision + recall ( 12 ) \begin{aligned} \text{mIoU}& =\frac1{N_c}\sum_{i=1}^{N_c}\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}+\mathrm{FP}} & \text{(9)} \\ \text{precision}& =\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} & \begin{pmatrix}10\end{pmatrix} \\ \text{recall}& =\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} & \text{(11)} \\ \text{mF1}& =\frac1{N_c}\sum_{i=1}^{N_c}\frac{2\times\text{precision}\times\text{recall}}{\text{precision}+\text{recall}} & (12) \end{aligned} mIoUprecisionrecallmF1=Nc1i=1NcTP+FN+FPTP=TP+FPTP=TP+FNTP=Nc1i=1Ncprecision+recall2×precision×recall(9)(10)(11)(12)
在这个方程中: TP (True Positives) 是正确预测为正类别的样本数量。FP (False Positives) 是错误预测为正类别的样本数量。FN (False Negatives) 是错误预测为负类别的样本数量。Nc (Number of Categories) 是类别的总数。

B. 多类别WSSS的性能

多类别和单类别WSSS之间的比较:

多类别WSSS任务可能通过训练多个二进制WSSS模型来解决,这已经取得了相当大的发展。然而,与使用二进制模型进行多类别WSSS相比,显然一个多类别方法倾向于在时间和空间成本上要低得多。更重要的是,本节将演示多类别方法可以实现比二进制方法更好的性能。

具体而言,比较了多类别分类网络和二进制网络生成的伪掩模的准确性,这对于WSSS的性能是决定性的[13]。多类别网络和二进制网络除了输出层的数量不同:多类别网络为Nc,二进制网络为1,培训和测试数据集也保持一致,以确保公平性,即用于二进制任务的数据集来自具有相同图像级标签的多类别数据集(0表示某个类别不存在,1表示存在)。在多类别情况下,通过将argmax应用于多类别CAM来生成伪掩模,这是由单个多类别分类网络直接生成的。在二进制情况下,不同类别的CAM是通过多个二进制分类网络获得的,它们通过连接在一起,然后进行argmax操作以生成伪掩模。
在这里插入图片描述
表I显示了三个数据集的不同CAM方法生成的伪掩模的准确性。多类别网络生成的伪掩模的准确性明显高于由二进制网络生成的伪掩模,不论是对于不同的数据集还是分类网络,都表明了使用统一的多类别分类网络来识别不同类别的优势,这可以归因于两个原因。一方面,通过多类别标签训练的分类网络可以识别不同类别,而二进制网络只能识别单个类别,无法全面考虑不同类别之间的差异和关系。另一方面,多类别网络的不同类别的CAM是通过相同的网络骨干获得的,但二进制网络可能会在不同级别生成CAM,这不适合进行集成。
在这里插入图片描述在这里插入图片描述对于二进制图像级别WSSS,伪掩模总是通过引入阈值到CAM中来提取前景和背景[12],[13]。然而,对于多类别CAM,伪掩模可以通过考虑不同类别来生成,而不仅仅是通过对单类别CAM进行阈值处理。表II和表III比较了在ISPRS和DeepGlobe数据集中通过argmax和阈值处理获得的不同类别的前景准确性,其中阈值设置为导致前景IoU最佳的最佳值。结果显示,在三个数据集中,argmax操作更有效,提取前景的准确性更高,其中ISPRS Potsdam数据集获得了8.91%的最大mIoU差距,表明利用多个CAM的相互作用可以产生更高质量的伪掩模。这不仅证明了多类别WSSS模型相对于二进制模型在识别不同类别方面的优势,还为改进二进制WSSS提供了新的启发。

此外,我们计算了多种分类网络在多类别和二进制情景下的推理时间,如表IV所示。这两种类型的网络之间唯一的区别在于输出层的数量,即多类别为Nc,二进制为1。值得注意的是,在这两种情况下,几乎没有明显的预测时间差异。因此,多类别方法明显比二进制方法节省更多时间,因为后者需要进行多次推理。

WSSS和FSSS之间的比较:

在这里插入图片描述

WSSS和FSSS之间的性能差异可以清晰地反映出WSSS方法的有效性。表V显示了所提出的WSSS框架与ISPRS Potsdam和Vaihingen数据集上的FSSS的最终准确性进行比较。对于Potsdam和Vaihingen,mIoU差距分别为5.06%和7.53%,并且WSSS的准确性可以达到FSSS的94.23%和90.77%,如mIoU所示。这样一个小的准确性差距反映了所提出的多类别WSSS方法的适用性。建筑类别为WSSS和FSSS的最佳提取准确性,而由于共现问题,即汽车总是与不透水表面共存,因此汽车类别的准确性最低,更容易被错误分类为不透水表面。总的来说,WSSS方法在所有类别方面的性能可以与FSSS相媲美。
在这里插入图片描述在这里插入图片描述
图4和图5分别显示了ISPRS Potsdam和Vaihingen数据集的视觉WSSS结果,这表明所提出的WSSS框架不仅可以实现高的分割准确性,还可以绘制清晰的边界。
在这里插入图片描述表VI显示了DeepGlobe验证(val)和测试集上WSSS和FSSS的准确性。结果显示两种方法之间的准确性差距非常小,验证/测试集的mIoU分别为0.72%/1.31%和mF1为0.52%/0.78%。我们假设这个微小的准确性差距是由于粗略的像素级地面真值标签,可以在图6的第二行中看到。值得注意的是,WSSS框架生成的伪掩模表现出与地面真值相似或甚至更好的性能,从而实现了相媲美的分割性能,如图6所示。这样微不足道的差距不仅证明了所提出的WSSS框架的有效性,还凸显了利用WSSS进行粗粒度地物覆盖映射的巨大潜力,即仅需为图像级弱标注添加弱标注,而不需要花费大量时间来生成粗略的像素级标签可能更加高效。
在这里插入图片描述

组件分析

消融研究:

在这里插入图片描述提出的WSSS框架包括多个流程。为了验证不同模块的有效性,进行了大量实验,并改变了不同的设置。表VII显示了来自由不同伪掩码训练的分割网络的WSSS准确性,其中“base”表示argmax的伪掩码,“CRF”表示基本掩码的改进,“mask-w”使用伪掩码的权重掩码,“iteration”表示分割网络的迭代训练,“iteration-w”在迭代训练中使用权重掩码。

根据CRF改进的伪掩码,引入来自不确定性掩码的像素级权重可以减少标签错误的负面影响,从而增强WSSS准确性。表VII显示,权重掩码对所有数据集都有效,其中对ISPRS Potsdam和Vaihingen数据集分别提高了0.74%和1.03%。迭代训练适用于ISPRS Potsdam和Vaihingen数据集,以及在这两个数据集中加权训练的迭代训练可以实现最佳准确性,分别为82.70%和74.01%的mIoU。但是,迭代训练不适用于DeepGlobe数据集,这是因为分割网络只能在此数据集上生成粗粒度的结果,伪掩码已经达到了上限,几乎无法进一步改进。

生成适当的图像级标签的有效性:

对于图像级WSSS,图像级注释提供了基本的监督信息,决定了最终的WSSS性能。对于RSI的多类WSSS,为具有判别能力的分类网络生成适当的图像级注释至关重要。在生成适当的图像级标签方面,我们提出了一种标签过滤方法和一种称为CM的标签共现估算方法,本节将说明它们的效果。
在这里插入图片描述伪蒙版的准确性决定了分割网络训练以及因此WSSS的性能。表VIII显示了由分类网络生成的伪蒙版的准确性,这些分类网络是在过滤之前和之后的图像级标签的训练下产生的。总的来说,标签过滤可以明显提高不同数据集上所有CAM方法的伪蒙版的准确性(除了对于Vaihingen数据集,其中DRS方法在两种情况下的准确性都非常低,表明标签过滤对提高分类网络的识别能力的有效性。最大的改进来自DeepGlobe数据集的Ori-CAM,mIoU提高了6.01%。表VIII显示,Vaihingen数据集在三个数据集中获得的改进最小,这可以归因于此数据集的数据量较小。

尽管经过过滤的图像级标签包括更清晰的类别特征,但共存问题可能仍然存在。我们提出了CM的方法来评估图像级标签的共现情况,它可以用来引导生成更好的图像级标签。为了说明其有效性,我们将两个ISPRS数据集的图像裁剪成不同大小的图块以构建不同的数据集。具体而言,我们将Potsdam数据集的图像裁剪成256×256和512×512像素大小,将Vaihingen数据集的图像裁剪成128×128和256×256像素大小。以Potsdam和Vaihingen数据集为例,不同裁剪数据集的伪蒙版准确性和相应的CM如图7和图8所示。
在这里插入图片描述在这里插入图片描述如图7和图8所示,较大的图块尺寸的数据集面临更严重的共现现象,这在CM中体现出较大的值。对于所有CAM方法,具有更严重共现问题的图像级标签会导致在两个数据集的伪蒙版准确性较低。例如,对于Potsdam/Vaihingen数据集,共现问题较轻的图像级标签为SEAM提供了更高13.42%/14.22%的mIoU,表明共现对于训练精细分类网络的影响。总之,提出的CM可以指示图像级标签的共现问题,并为RSI的土地覆盖制图生成适当的弱标签提供指导。

伪蒙版不确定性的分析:

在这里插入图片描述
权重蒙版是从不确定性蒙版中生成的,可以减轻伪蒙版中嘈杂标签的影响。权重蒙版在两个特定领域使用:一个是从CAM生成的伪蒙版,另一个是从迭代训练中的分割网络生成的伪蒙版。图9显示了两种使用情况下权重蒙版的可视化示例。可以看到,低权重像素往往在伪蒙版中被错误标记,表明权重蒙版对于减轻标签错误的干扰是有效的。从CAM的伪蒙版(图9中的iter 0)是初始伪蒙版,因此包含更多错误标签。经过分割网络的迭代训练后,随着迭代次数的增加,错误像素减少,伪蒙版变得越来越准确。目标边界总是具有低权重,更容易被错误标记。

迭代训练的效果:

迭代训练是一种常用的策略,可以逐渐改进伪蒙版。Li等人在分割网络的迭代训练中引入了基于不确定性的蒙版权重,以减轻嘈杂标签的影响,但用于训练分割网络的初始伪蒙版仍然有噪声,这会妨碍分割网络学习准确信息,并因此干扰后续的迭代训练。我们参考了[71]的迭代训练,但引入了从多类CAM中获得的不确定性蒙版,以减轻基本过程中的噪声效应。在本节中,将说明提出的框架中迭代训练的有效性。
在这里插入图片描述在Potsdam和Vaihingen数据集上显示了分割网络迭代训练的准确性,如图10所示。需要注意的是,迭代训练不适用于DeepGlobe数据集。从图10可以看出,通过将不确定性权重蒙版引入初始伪蒙版,可以在两个数据集上极大地提高分割性能,这可以证明提出的噪声减轻策略的益处。忽略初始伪蒙版的噪声干扰将降低迭代训练的上限,因为由于错误积累效应,会减少初始伪蒙版的噪声干扰。此外,将不确定性蒙版权重引入到迭代训练过程中会进一步改善WSSS的性能。因此,将初始伪蒙版和迭代训练的不确定性蒙版权重相结合可以实现更好的分割网络。

讨论

多类别任务可以分解为多个二进制任务,这些任务通常更容易处理。与二进制分类场景不同,处理RSI多类别图像级标签的WSSS在处理多类别对象分布、模糊的对象特征和普遍存在的共存问题等多个挑战方面面临多个挑战。因此,有人可能会认为,多类别WSSS可以通过反复使用二进制WSSS模型来解决。然而,在这项研究中,我们发现了一个令人惊讶的发现:通过直接训练多类别分类网络,可以生成比多个二进制分类网络生成的伪蒙版具有更高准确性的伪蒙版。此外,我们还发现,通过考虑多个类别而不仅仅考虑一个类别,总是可以获得不同类别的前景的更高准确性。

所提出的WSSS框架可以实现与完全监督情况相媲美的高质量结果,主要是由于三个重要因素。首先,通过滤除不适当的训练样本来构建一个更好的数据集,以保留不同类别的精细特征,使训练后的分类网络能够准确识别不同的对象,为生成准确的伪蒙版奠定了良好的基础。其次,通过使用基于不确定性的加权蒙版,可以减轻伪蒙版中不可避免存在的噪声干扰,帮助训练后的分割网络更好地识别对象。第三,使用加权蒙版的迭代训练可以逐步提高伪蒙版的上限,因为分割网络从一开始就是使用加权蒙版进行训练的,并且可以在迭代训练中获得进一步的改进。

所提出的框架中的所有策略和方法都可以为使用图像级WSSS进行土地覆盖制图提供参考。特别是,过滤不合适的训练样本以确保保留每个类别的精细特征非常重要,而不是一次性使用所有样本。CM可以用来评估训练数据的共存情况。对于存在严重共存问题的数据集,可以采用数据扩展或裁剪成更小的图像块等措施。用于重新加权伪蒙版的不确定性蒙版直接从多类别CAM获得,专门用于多类别WSSS任务,容易生成而不需要引入额外的模块。使用加权蒙版进行迭代训练可以逐步改进伪蒙版和分割网络,尽管对于某些数据集可能不太合适。

结论

本研究提出了一个精心设计的框架,用于在多类别场景中进行RSI的图像级WSSS。通过引入样本过滤来消除不适合的样本,并在所提出的CM的指导下,可以收集更适用于RSI多类别WSSS的图像级训练样本。为了减轻嘈杂伪蒙版的噪声干扰,提出了一种基于多类别CAM的不确定性驱动的像素级权重蒙版生成方法,可以显著提高分割网络迭代训练的上限,从而提高最终分割准确性。在RSI的二元图像级WSSS普及的背景下,我们发现直接训练多类别分类网络与训练多个二元分类网络相比,可以生成更好的伪蒙版,证明了研究多类别WSSS方法的好处。精心设计的实验表明,所提出的框架可以实现与像素级标签相媲美的高质量语义分割,具体而言,对于ISPRS Potsdam和Vaihingen数据集,mIoU可以达到90%以上,对于DeepGlobe数据集接近99%。我们期望我们的方法和发现可以为实现大规模高质量的RSI土地覆盖制图的技术和思想提供参考。

在未来的工作中,我们致力于开发解决共存问题的具体方法和用于RSI的端到端WSSS方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值