【论文阅读及解读】基于辅助学习的高分辨率遥感图像弱监督建筑提取网络

【论文阅读】基于辅助学习的高分辨率遥感图像弱监督建筑提取网络


ALNet: Auxiliary Learning-Based Network for Weakly Supervised Building Extraction From High-Resolution Remote Sensing Images

弱监督语义分割(WSSS)可以降低标注像素级标签的昂贵成本

生成类激活图(CAMs)作为伪标签来训练分割模型取得了很大进展

分类和分割之间存在很大的监督差距,因此很难生成高质量的cam

  

为了帮助减轻监督差距

有效利用FTIR监督来解决监督缺口,我们开发了一个基于学习的辅助网络(ALNet)

ALNet利用FTIR监督来提高WSSS的性能

  

主要分为3个部分来组成:

  • 设计了一个简单但有效的特征到图像恢复(FTIR)分支
  • 提出了一种语义感知的多级特征累进聚合模块(SMPA)来增强多级特征的融合
  • 引入了全局推理增强模块,增强相似建筑对象之间的全局相关性

  

在包括WHU数据集InriaAID数据集在内的公共高分辨率遥感图像(HRSI)建筑数据集上进行的大量实验表明

  

一、介绍

语义分割方法,是由cnn发展而来的最先进的建筑提取方法

fcn的方法大多需要大量具有像素级注释的训练样本

  

图像级标记是最容易和最便宜获得的,因为它只表示图像中对象的存在,而不提供任何关于其位置或形状的信息

为了使用图像级标签实现逐像素的语义分割

大多数现有的WSSS方法通常遵循两个步骤:

使用注意机制(即类激活图(CAM)通过分类网络对对象进行定位;

使用CAMs作为伪标签训练语义分割模型。

  

CAMs只能覆盖物体最具判别性的部分,而不是物体的整个范围,导致训练语义分割模型的像素级伪标签不准确和不完整

由图像级标签监督的分类模型关注最具判别性的区域,以预测图像中目标物体的存在与否

  

这种监督缺口将导致使用图像级样本训练的分类模型难以为分割任务提供细粒度特征,从而难以获得精确的cam

遥感图像上弱监督的困难:

  • 相对均匀的建筑,也不能保证整个建筑区域在cam中被激活
  • 观相似的不同建筑,生成的cam可能仍然表现出明显的差异
  • 建筑物有时会被错误地激活为cam中的周围背景物体

  
补充在弱监督上的困难就显得非常重要了,使用额外的监督技术,著性图和自监督信号等方法来进行

为了生成高质量的cam,有必要开发更先进的方法来弥合分类和分割任务之间的监督差距

在cam中,外观相似区域内的像素应该产生更一致的特征

外观差异较大的像素应该产生更明显的特征
  

本文旨在通过引入相应的逐像素监督来弥补上述监督差距,该监督将通过图像恢复任务获得

提出了一种创新的方法,称为辅助学习网络(ALNet)

  • 设计了一种新的特征到图像恢复(FTIR)分支,以获取补充的像素级监管信息,有助于减轻监管缺口
  • 效利用FTIR监管来填补监管空白,我们开发了一个ALNet,FTIR作为辅助任务
  • 引入了语义感知的多级特征渐进式聚合模块(SMPA)来增强多级特征的融合
  • 引入了全局推理增强模块,进一步增强相似建筑对象之间的全局相关性。

  

二、联系工作

传统的建筑提取方法利用颜色、纹理、形状、阴影等特征

进一步的研究中,提出了形态学阴影指数(MSI)来检测阴影,以优化提取的建筑物轮廓
  
以CNN为主导的方法已经成为了主流

  • FCN
  • U-Net
  • MA-FCN
  • MAP-Net

等工作已经起到了很好的效果

但在大程度上依赖于大量具有逐像素注释的训练样本,从而产生昂贵的标记成本

  

同样存在很多的

  • 边界框
  • 稀疏涂鸦

这种类似的方法

  

图像级标签弱监督的发展过程

  1. Learning deep features for discriminative localization,
  2. Grad-CAM++: Generalized gradient-based visual explanations for deep convolutional networks
  3. Object region mining with adversarial erasing: A simple classification to semantic segmentation approach
  4. FickleNet: Weakly and semi-supervised semantic image segmentation using stochastic inference
  5. L2G: A simple local-to-global knowledge transfer framework for weakly supervised semantic segmentation
  6. Weakly-supervised semantic segmentation network with deep seeded region growing
  7. Learning pixel-level semantic affinity with image-level supervision for weakly supervised semantic segmentation
  8. Railroad is not a train:Saliency as pseudo-pixel supervision for weakly supervised semantic segmentation

  

现有的基于图像级标签的WSSS方法通常建立在cam的基础上,使用cam生成伪标签进行训练

原始的cam往往不能捕捉到物体的完整区域,而只突出了最具区别性的部分。这导致了不准确和不完整的伪标签

  

CAM的改进优化策略发展:

  1. AE-PSL[21]采用迭代擦除策略,更加关注非歧视性的目标区域
  2. FickleNet[22]通过随机丢弃连接,然后合并多个推理结果来捕获更多的对象区域
  3. SPN[47]通过引入超像素池来进行区域监督,生成更完整的区域
  4. The splitting versus merging model [48]提出通过设计差异损失和交集损失两种损失来优化分类模型以获得完整的目标区域,从而改进生成cam的方
  5. L2G[23]提出了一个局部到全局的知识转移框架,用于生成高质量的对象关注。此外,其他的工作重点是完善凸轮
  6. SEC[49]设计了三种损失,即种子损失、扩展损失和约束损失
  7. DSRG[24]采用区域生长来动态扩展凸轮
  8. affinity - net[25]利用初始cam中的像素亲和性来扩展cam
  9. IR-Net[50]从cam中生成类边界图和位移场,并利用它们扩展cam
  10. AFA[51]利用从变压器的多头自注意中习得的语义亲和力来改进初始cam

  

造成上述现象的根本原因在于分类与分割之间的监管差距

  • EPS[26]和STC[27]利用显著性图作为额外的监督来提高cam的质量
  • SEAM[28]对转换后的凸轮施加一致性约束,以匹配原始凸cam
  • CIAN[29]利用跨图像语义亲和力来优化cam
  • Chang等[30]利用子类别信息引入了一种自监督方式

  
多层特征聚合也是生成高质量cam的关键。低级特征和高级特征本质上是互补的,低级特征空间细节丰富,语义信息缺乏,反之亦然

一些方法利用多层来进行融合和利用:

  • MSCAM[52]设计了一个具有注意力机制的全连接层来合并多层特征
  • WSF-Net[53]采用自顶向下的路径逐步合并不同层次的特征
  • MSG-SR-Net[54]在多层特征中引入了全局语义信息,以抑制类无关噪声的干扰

  

三、方法

ALNet的总体框架

在这里插入图片描述

该网络的目的是利用FTIR监管结合图像级标签来提高cam的质量

它由一个共享的特征提取器和两个特定于任务的分支组成

  • 主WSSS分支
  • 辅助FTIR分支

前者用于使用图像级标签以弱监督学习的方式生成cam

后者用于提供额外的逐像素监督以辅助WSSS分支

  

在训练过程中,我们以端到端的方式共同学习这两个任务,引导网络生成更强大的特征表示
在这里插入图片描述

  

组成:

  • LossCLS为WSSS分类学习损失
  • losssir为FTIR图像恢复学习损失
  • LossSE在SMPA中专门设计用于语义感知特征学习

  

超参数α和β控制了不同损失的贡献

在训练阶段,基于loss LossCLS对WSSS主分支进行训练,得到分类器

在推理阶段,利用学习到的分类器计算cam

在这里插入图片描述

f为特征提取器嵌入的特征,WCBR和WCLS分别表示ConvCBR(·)和ConvCLS(·)的权重

  

3.1 用于提供可用的像素级监督的FTIR

FTIR分支被设计为利用其嵌入的特征f重建输入图像的原始外观,而不是从其不完整的数据中重建

采用以原始输入图像为目标数据的重构损失进行优化

迫使模型对外观相似的区域产生更一致的特征

  

辅助FTIR支路组成:

  • 变换函数ConvCBR(·)(两组3 × 3的conv BN ReLU)
  • 恢复函数ConvTEDSR(·)

在这里插入图片描述

YIR表示FTIR支路的输出

WCBR、WTEDSR分别表示ConvCBR(·)和ConvTEDSR(·)的权重

  

特征提取器将被迫为具有相似外观的区域学习更一致的嵌入特征,并为外观差异很大的区域学习更明显的特征

  

3.2 SPMA的多层次特征融合

FTIR分支可以帮助WSSS分支改进凸轮,但存在不匹配问题,可能会阻碍模型的训练

FTIR分支关注的是恢复输入图像原貌的低级信息

WSSS任务关注的是有助于分类的高级语义信息

  

多层特征聚合本身是生成高质量WSSS图像的关键因素

语义分割中常用的多层次特征融合机制大多是自顶向下

由于缺乏像素级标注,较高级特征的空间细节和精度较差,但包含更多的语义信息

低级特征包含更详细的信息,但具有较弱的语义表示

  

我们采用自底向上的路径,逐步将较低层次的特征合并到较高层次的特征中

底层特征可能包含很多与类无关的噪声(如纹理噪声过大),这会影响cam的质量

设计了语义编码损失

在这里插入图片描述

在这里插入图片描述

计算了两个具有过渡合并特征P12和P23的语义编码损失

消除混合在特征中的类无关噪声

  

3.3 全局增强(GloRe)

获得合并的多层建筑特征后,使用GloRe进一步加强全局交互

FTIR监管下,跨越各个类似的建筑区域。

  

GloRe包括三个步骤:

  • 将输入特征映射到潜在交互空间中,其中每个特征对应一组相似的区域
  • 构造和推理图,将特征作为节点连接起来,计算增强特征
  • 将全局增强的特征投影回原始栅格空间

  

在这里插入图片描述

组成:

  • 降维算子φ(·)
  • 投影算子θ(·)
  • 使用一般图卷积g(·)

在这里插入图片描述

Z是由GloRe增强的光栅特性

  

3.4 用cam训练的像素级建筑提取模型

在ALNet获得高质量的cam后,我们以完全监督的方式使用cam训练建筑物提取模型,将cam处理成伪像素级标签。

  

规范化cam上设置了两个先验阈值:

  • 较高的阈值用于确定建筑类别
  • 低的阈值用于识别非建筑类别

  

我们将值介于两个阈值之间的像素分配给不确定类,在训练阶段将忽略这些像素

到伪像素级标签Yp∈(0,1,2)W ×H,其中0代表非建筑类,1代表建筑类,2代表不确定类

  

四、实验

两个公共HRSI构建数据集上评估了所提出的方法

  • WHU数据集[34]
  • InriaAID数据集[35]

  

WHU数据集包含8189个512 × 512像素的补丁。每个贴片由RGB通道组成,每个通道的光谱分辨率为8位,空间分辨率为0.3 m。

数据集被分为三个部分:

  • 包含4736个patch的训练集
  • 包含1036个patch的验证集
  • 包含2416个patch的测试集

数据集只包含两个语义类,即建筑类和非建筑类

  

芝加哥InriaAID数据集由36个带有RGB波段的patch组成。每个patch的尺寸为1500 × 1500像素,空间分辨率为0.3 m。

该数据集还在像素级别上标记为两个语义类:建筑类和非建筑类

  • 24个patch作为训练集
  • 4个patch作为验证集
  • 8个patch作为测试集

  

通过滑动步长128将所有原始图像裁剪成大小为256 × 256的图像块

对于训练基于图像级标签的弱监督建筑物提取方法的训练集,我们通过图像块中建筑物类的像素比来确定图像级标签

当一个块不包含任何建筑像素时,我们将其注释为非建筑类。为了训练的稳定性,我们将像素比大于15%的块标记为建筑类

  

一个弱监督网络ALNet和一个完全监督的建筑提取网络

对于ALNet,我们采用在ImageNet[58]上预训练的ResNet-50[3]作为其主干,以利用学习到的通用特征。

对于ALNet的其余模块,其权重随机初始化

  

CAM训练具体参数:

  • 骨干模块和其他模块的初始学习率分别为0.001和0.01
  • “poly”衰减策略
  • 批量大小为16
  • 不使用FTIR分支的情况下对ALNet进行30次训练作为预热策略, 然后使用FTIR分支对整个ALNet进行10次训练
  • 利用随机水平翻转、颜色抖动和随机旋转来增强数据

  

inference训练具体参数:

  • 动量为0.9
  • 权重衰减为5e−4
  • SGD优化器
  • 初始学习率设置为0.01
  • batch size设置为64
  • 20 epoch

  

基于图像级标签的WSSS方法通常包括通过图像级标签生成cam和使用cam训练语义分割模型。我们提出的ALNet主要侧重于改进第一步

在这里插入图片描述

加了辅助的融合结果

在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值