论文学习(十):FPS-U2Net: Combining U2Net and multi-level aggregation architecture for fire point segmentat


  论文题目:FPS-U2Net: Combining U2Net and multi-level aggregation architecture for fire point segmentation in remote sensing images(FPS-UNet:结合 UNet 和多级聚合架构,用于遥感图像中的火点分割)
  论文链接:点击跳转
  论文目的:构建了涵盖不同年份、季节和地区的Landsat8遥感火点检测数据集 L a n d s a t 8 R S I − F P S Landsat8 RSI-FPS Landsat8RSIFPS,首次将显著目标检测技术应用于遥感火灾检测,并提出了新型网络 F P S − U 2 N e t FPS-U^2Net FPSU2Net来实现遥感图像的火点检测。 F P S − U 2 N e t FPS-U^2Net FPSU2Net基于 U 2 N e t U^2Net U2Net(见原文)轻量级架构(方便与多级聚合模块相结合),并提出多极聚合模块(MAM),该模块放在同一阶段的编码器与解码器之间以聚合相邻多尺度特征并捕获更丰富的上下文信息。此外,还提出混合损失函数BCE+IoU,使得网络可以从像素和地图级别学习显著信息。

1.Introduction

  目前,火点检测方法主要包括传统方法和深度学习方法两类:

  • 传统方法:基于火点的物理特征(如亮温值、光谱特征等)与周围环境的差异,可分为阈值法、图像信息增强法和背景算法。传统方法往往过于依赖阈值的判断,且受环境影响较大,泛化能力差。
  • 深度学习方法:深度学习在自然场景图象表现出色,但普通图像与遥感图像之间存在较大差异,往往不能取得满意结果。

显著性目标检测与语义分割:
  语义分割:将图像划分为具有语义意义的不同区域,并为每个像素分配相应的类别标签。与物体检测和物体识别不同,语义分割不再关注于对于物体整体的研究,而是对于图像中的每个像素进行分类,然后对像素进行标签的分配,将整个图像进行像素级的分割。
  显著性目标检测:来源于人类的视觉特性,即人们总是先会关注那些更加吸引自己的目标。此任务的目标就是通过分析图像的视觉特征,来突出图像中与周围环境显著不同的目标。如:
在这里插入图片描述

本研究使用多级聚合架构来改进 U 2 N e t U^2Net U2Net的轻量级版本架构,提出了新的 F P S − U 2 N e t FPS-U2Net FPSU2Net模型用于遥感火灾检测。并且,以往的SOD方法中大多集中在精心设计编码器上,未能利用相邻编码器的多级功能,或是集中在提高分割精度上,而忽略了对部署至关重要的模型大小的控制,本研究共同考虑了这两个问题。并且,为更好地利用相邻编码器的多级特征,提出了多级聚合模块(MAM),该模块位于同一阶段的编码器和解码器之间,以聚合相邻的多尺度特征并捕获更丰富的上下文信息。为了弥补 BCE 损失的弱点,还引入了混合损失BCE + IoU用于网络的训练,它可以指导网络从像素和地图级别学习显著信息。

除此之外,本研究收集了2013 年至 2022 年加利福尼亚州森林火灾的 Landsat8遥感图像,并构建了涵盖不同年份、季节和地区的Landsat8 遥感火点检测数据集 L C 8 F P S LC8FPS LC8FPS

  本研究主要内容如下:

  • 1.收集2013~2022年加利福尼亚森林火灾的Landsat8数据,并构建一个涵盖不同年份、季节和地区的新颖火点数据集 L C 8 F P S LC8FPS LC8FPS
  • 2.首次应用显著目标检测技术,并基于 U 2 N e t U^2Net U2Net模型提出新型网络 F P S − U 2 N e t FPS-U^2Net FPSU2Net
  • 3.为更好利用相邻编码器的多级特征,提出多级聚合模块(MAM),该模块位于同一阶段的编码器和解码器之间,以聚合相邻的多尺度特征并捕获更丰富的上下文信息。
  • 4.为弥补BCE(Binary Cross-Entropy)损失的弱点,我们采用混合损失 BCE + IoU 进行网络训练,可以引导网络从像素和地图级别学习显著信息。

实验结果表明, F P S − U 2 N e t FPS-U^2Net FPSU2Net性能明显优于最先进的语义分割和显著目标检测技术,并且可以准确分割火灾区域并预测清晰的局部细节。

2.Dataset

  大多数相关研究中使用的遥感图像往往空间分辨率较低(如Himawari-8空间分辨率为1000m),使得小区域火点定位精度差,故本研究基于Landsat8建立了专门的火点检测数据集 L C 8 F P S LC8FPS LC8FPS,空间分辨率为30m,涵盖不同年份、季节和地区。Landsat8 的 11 个波段可以组合成许多 RGB 方案,用于解释不同的地面对象,其中,band6和band7两个短波红外波段对温度变化敏感,故经常会被使用。常见的火点检测波段组合如下(一般选三个波段进行组合):
在这里插入图片描述
可见,大多数合成图像在火区上方都有浓烟,这对火点的分割造成了严重的干扰。相比之下,band766 的合成图像在着火点区域具有更明显的特征,并且 band766 的组合对大气具有很强的穿透能力,可以在一定程度上减少烟雾的影响(后文会有消融实验证明band766在火点检测任务中的优越性)。
  本研究收集了2013 年至 2022 年加利福尼亚州森林火灾的 Landsat8遥感图像,共86个场景,每个场景的原始遥感图像大小为 1.1–1.3 GB,总共 110 GB。OLI 的 band766 组合后生成的图像大小约为 350 MB,像素为 7751 × 7871 像素。然后,我们将 band766 组合的图像裁剪成 256 × 256 像素的图像块,并将它们从 TIF 转换为 PNG 格式。由于遥感图像中的火灾检测是一个不平衡的分类问题,非火灾图像的数量远大于 fire 图像的数量,因此,我们对 PNG 图像进行可视化解读,去除非火灾PNG 图像,得到 851 张包含火灾像素的 PNG 图像。我们手动注释火灾区域并生成最终数据集 L C 8 F P S LC8FPS LC8FPS。其中包含592张训练图像,259张测试图像。

  使用的火灾信息如下:
在这里插入图片描述

  数据集构建过程如下:
在这里插入图片描述

3.Methodology

3.1Network overview

  遥感火点检测本质是对每一个像素进行火点分类。基于 U 2 N e t p U^2Netp U2Netp(轻量级 U 2 N e t U^2Net U2Net),本研究设计了 M A M 2 N e t MAM^2Net MAM2Net,其通过空间注意力和通道注意力机制聚合来自相邻编码器模块的多尺度特征,以获得更丰富的上下文信息并增加特征多样性。 F P S − U 2 N e t FPS-U^2Net FPSU2Net是一个两级嵌套的U型结构,即框架外和内部RSU模块都是U型。同样使用 U 2 N e t U^2Net U2Net R S U RSU RSU(U型残差U型模块)来提取多尺度特征,并聚合阶段之间的多层次特征,是 F P S − U 2 N e t FPS-U^2Net FPSU2Net的基本组件,也是每个编码器和解码器模块的核心部分。网络结构如下:
在这里插入图片描述
  具体流程为:

  通过聚合不同阶段的多尺度和多层次特征,逐渐从图像中提取显著信息,最后转移到后期进一步增强。基本结构如下:
在这里插入图片描述

其3个基本组件如下:

  • (1)输入卷积层:由卷积神经网络(Conv)、批量归一化(BN)和ReLU激活函数组成,将输入特征x(形状为 H × W × C i n H×W×C_{in} H×W×Cin)转换为中间特征F1(x)(通道为 C o u t C_{out} Cout),用作本地特征提取。
  • (2)高度为L的对称编码器-解码器结构。它从输入 CNN 中获取特征作为输入,提取和编码多尺度上下文信息以生成块的最终输出。更大的 L 导致更深的 RSU 模块、更多的池化操作、更大的感受野以及更丰富的局部和全局特征,这意味着更强大的特征提取能力以及更多的计算和内存成本。为了实现性能、速度和模型尺寸之间的平衡,选择了轻量级的 U 2 N e t p U^2Netp U2Netp,与全 U 2 N e t U^2Net U2Net相比性能略差,但速度要快得多,参数也少得多。以此作为基础进行修改,获得了更好的 F P S − U 2 N e t FPS-U^2Net FPSU2Net,并通过反复试验以调整高度 L 适应具有不同空间分辨率的输入特征,有助于提取多尺度特征。从逐步降低采样的特征中提取多尺度特征,然后通过渐进式上采样操作、连接操作和卷积层编码为高分辨率的特征。此过程可减轻从小比例直接上采样到大比例。
  • (3)可融合局部和多尺度特征的残差连接。

3.2MAM

  原本的 U 2 N e t U^2Net U2Net在同一阶段直接将编码器的输出特征馈送到解码器,它取得了不错的性能,但它忽略了相邻编码器模块的多级特征的互补功能,可以利用这些功能进一步提高性能。本研究设计了 M A M MAM MAM(多级聚合模块),通过空间注意力和通道注意力机制聚合来自相邻编码器模块的多尺度特征,从而获得丰富上下文信息并增加特征多样性。普通 MAM(第 2、3、4 阶段)有 3 个分支用于特征交互,而第一个 MAM 和最后一个 MAM 只有 2 个分支用于特征交互,这是普通MAM的特例。Fire-Net基本结构如下:
在这里插入图片描述
下面说明常见的 MAM(阶段 2、3、4)的细节,阶段 1、5的 MAM同理。MAM结构如下:
在这里插入图片描述
其中, f i − 1 、 f i 、 f i + 1 f_{i-1}、f_{i}、f_{i+1} fi1fifi+1分别表示上一个、当前、下一个分支的输入(如阶段2MA的 f i − 1 、 f i 、 f i + 1 f_{i-1}、f_{i}、f_{i+1} fi1fifi+1对应RSU7、RSU6、RSU5模块的输出)。对于上一分支 f i − 1 f_{i-1} fi1,使用downsample计算并输入空间注意力(SA)模块,而对于下一分支 f i − 1 f_{i-1} fi1,使用unsample计算并输入空间注意力(SA)模块。两个SA模块的输出均与 f i f_{i} fi运算得到 f i − 1 ′ 、 f i + 1 ′ f_{i-1}^{'}、f_{i+1}^{'} fi1fi+1,而 f i f_i fi经过卷积注意力模块(CBAM)运算得到 f i ′ f_i^{'} fi。将 f i − 1 ′ 、 f i ′ 、 f i + 1 ′ f_{i-1}^{'}、f_i^{'}、f_{i+1}^{'} fi1fifi+1通过Bottleneck模块进行特征融合,最终得到输出结果 f o u t f_{out} fout。整个过程的计算如下:
在这里插入图片描述

  • ⨂ \bigotimes :元素乘法运算。
  • ⨀ \bigodot :通道乘法运算。
  • D S DS DS:下采样操作。
  • U P UP UP:上采样操作。
  • S A SA SA:空间注意力机制,通过卷积层后跟 sigmoid 激活函数实现。
  • C A CA CA:通道注意力机制,它由自适应平均池化和具有 sigmoid 激活函数的卷积层实现。
  • C o n v Conv Conv:卷积层,具有批量归一化操作和ReLU激活函数。
  • B o t t l e n e c k Bottleneck Bottleneck:由两个卷积层和一个 Skip 连接组成。

3.3FPS-U^2Net

   F P S − U 2 N e t FPS-U^2Net FPSU2Net结构如下:
在这里插入图片描述
具体来说,首先使用几个 RSU 块从输入图像中提取多尺度特征,然后将其馈送到 MAM 进行特征聚合。之后,右侧的几个分层 RSU 块作为解码器,从前一个 RSU 块和同级 MAM 中获取特征作为输入,通过残差 U 形卷积层、降采样和上采样操作生成显著图。同时,解码器的每个 RSU 块和第 6 阶段的 RSU4F 之后是卷积层和上采样操作,以生成侧面显著性图(S1、S2、S3、S4、S5 和 S6)。具体来说,S1 是模型的最终预测,其他侧显著性图用于辅助训练并且,所有显著性图都具有用于深度监督的损失函数。

3.4Loss function

  在 U 2 N e t p U^2Netp U2Netp中使用二进制交叉熵损失函数BCE进行网络训练,但此损失函数存在独立计算每个像素的损失,而稀释了背景为主图片中前景像素的损失等缺点。本研究采用混合损失BCE + IoU进行训练,定义如下:
在这里插入图片描述

  • L h L_h Lh:混合损失函数。
  • L b c e L_{bce} Lbce:BCE损失函数,常常用于二分类问题,计算方式如下,其中, G ( r , c ) G(r,c) G(r,c)是像素 ( r , c ) (r,c) (r,c)的真实值, S ( e , c ) S(e,c) S(e,c)是像素 ( r , c ) (r,c) (r,c)的预测值:

在这里插入图片描述

  • L + i o u L+{iou} L+iou:IoU损失函数,常常作为目标检测和语义分割的评价指标,计算方式如下,其中, G ( r , c ) G(r,c) G(r,c)是像素 ( r , c ) (r,c) (r,c)的真实值, S ( e , c ) S(e,c) S(e,c)是像素 ( r , c ) (r,c) (r,c)的预测值:

在这里插入图片描述
鉴于 S1 是最终的显著性地图,S2、S3、S4、S5 是每个解码块的侧面显著性地图,S6 是第 6 阶段 RSU4F 的侧面显著性地图,整个损失函数定义如下:
在这里插入图片描述

4.Experiments

4.1Dataset and the evaluation metrics

  使用三个数据集评估 F P S − U 2 N e t FPS-U^2Net FPSU2Net

  • LC8FPS:本研究提出的数据集。
  • ActiveFire-Oceania(见原文):2020 年 8 月和 9 月在全球范围内捕获的 Landsat8 主动火灾检测大型公共数据集。
  • ActiveFire-Asia4(见原文):包含 11 个子数据集,涵盖 6 大洲:亚洲(1、2、3、4 和 5)、非洲、欧洲、北美(1、2)、南美洲和大洋洲。采用 ActiveFire 的两个子数据集 (Oceania 和 Asia4) 来评估所提出的方法。

这些数据集均选择band766作为FPS的组合方案,平均交并比 (mIoU) 和平均像素精度 (mPA)作为评估方法:

  • mIoU:常用的语义分割指标,计算每个类的真值和预测的比率。通常,IoU 用于描述预测和真值的组合度。IoU 和 mIoU 定义为:

在这里插入图片描述

  • mPA:常用的语义分割指标,计算每个类别中正确分类像素的平均比例,定义为:

在这里插入图片描述
  由于显著目标检测方法的预测是前景概率,因此对于所有显著目标检测方法,阈值设置为 0.5 以计算它们的 mIoU 和 mPA 指标。

4.2Implementation details

  本研究使用Python+Pytorch实现,三个数据集输入的遥感图像均为256x256,批大小为16,使用Adam优化器,学习率为0.001,权重衰减设置为0.0001,每个数据集均训练80轮次。

4.3Comparisons with state-of-the-art methods

  将 F P S − U 2 N e t FPS-U^2Net FPSU2Net的训练结果与 U n e t 、 P S P N e t 、 D e e p L a b V 3 + U 2 N e t 、 S e g F o r m e r 、 P F A N 、 U 2 N e t + U 2 N e t p 、 P G N e t 、 I C O N 、 C o r r N e t 、 S e a N e t Unet、PSPNet、DeepLabV3+U^2Net、SegFormer、PFAN、U^2Net+U^2Netp、PGNet、ICON、CorrNet、SeaNet UnetPSPNetDeepLabV3+U2NetSegFormerPFANU2Net+U2NetpPGNetICONCorrNetSeaNet模型作比较(原文有文章、代码链接),且使用相同数据集、使用作者提供的默认参数设置。
【定量比较】
  结果如下图:
在这里插入图片描述

  • 最佳结果以粗体显示,其中SS表示语义分割,SOD表示显著对象检测。“FPS(每秒帧数)”和“Flops”是在 NVIDIA RTX 3090 GPU 上按照 512 × 512 的输入刻度计算的。↑ 表示越大越好,↓ 表示越小越好。

可见, F P S − U 2 N e t FPS-U^2Net FPSU2Net在三个基准数据集上的性能明显由于最先进的方法,并且,在模型参数方面具有更大的优势,即实现最佳分割精度的同时,实现了 Params、FLOPs 和推理速度 (FPS) 的平衡。

【定性比较】
  LCFPS数据集上8种方法的视觉比较:
在这里插入图片描述

  • 第一、二行:多微小的火灾区域
  • 第三、四行:云干扰区域
  • 第五、六行:形状不规则的火灾区域

第 1 行中,其他方法很难在不错误分类的情况下分割整个火灾区域。相比之下, F P S − U 2 N e t FPS-U^2Net FPSU2Net可以准确、清晰地分割整个火灾区域。在第 4 行中,由于云层的干扰,其他方法或多或少会损失一些小的火区,而 F P S − U 2 N e t FPS-U^2Net FPSU2Net准确定位和分割火灾区域。第 5 行中,由于火灾区域复杂且形状多样,因此其他方法的预测显著性图模糊且边界粗糙,而 F P S − U 2 N e t FPS-U^2Net FPSU2Net的预测显著性图最接近真实情况。因此, F P S − U 2 N e t FPS-U^2Net FPSU2Net在定位精度和内容完整性方面具有很大的优势。
  下图显示了 ActiveFire-Oceania 和 ActiveFire-Asia4 数据集上(前三行大洋洲,后三行亚洲)八种代表性方法的视觉比较,可以看出  能够完整且无噪声地分割火灾区域:
在这里插入图片描述
【不同数据集的交叉验证】
  为验证模型的泛化能力,在一个数据集上训练模型,而在其他两个数据集上进行测试,测试结果如下:
在这里插入图片描述
用黑体标注最佳结果,可见, F P S − U 2 N e t FPS-U^2Net FPSU2Net在交叉验证实验的大多数情况下都达到了最佳的准确性。

4.4Ablation experiments

  对LC8FPS 和 ActiveFire-Oceania 数据集进行了彻底的消融研究,以研究我们提出的方法中每个关键成分的影响。

  • 1.不同波段组合有效性的消融实验。在具有不同波段组合的 ActiveFire-Oceania 训练集上训练 UNet,持续 80 个 epoch,并在相应的测试集上进行评估。结果如下,可见Band766在火点检测上优于其他波段组合:

在这里插入图片描述

  • 2.多级聚合模块(MAM)与混合损失函数(BCE+IoU)总体贡献的消融实验:以编码器-解码器网络作为基础网络,在两个数据集上验证了 F P S − U 2 N e t FPS-U^2Net FPSU2Net各模块的有效性,并将它们逐步添加到基线网络中,以测试多级聚合模块(MAM)与混合损失函数(BCE+IoU)的总体贡献,结果如下表所示。可见,新增两个模块后,网络的整体准确率显著提升。
    • (1)将MM加入基础网络:模型的 mIoU 分数在 LC8FPS 和 ActiveFire-Oceania 上分别提高了 1.2%、3.3% 和 1.7%、3.5%。
    • (2)将MM、混合损失函数同时加入基础网络:模型的 mIoU 分数分别在 LC8FPS (87.4) 和 ActiveFire-Oceania (92.5) 上达到峰值。

在这里插入图片描述

  • 3.验证MAM每个成分有效性的消融实验:下表能反映出删除任一组件都会降低分割准确性,这证明这两个组件对于 MAM 都是必需的。
    • (1)w/CBAM:MAM只使用CBAM。
    • (2)w/Bottleneck:MAM只使用Bottleneck。

在这里插入图片描述

  • 4.验证是否需融合每个解码器模块在不同阶段的多级特征,以生成最终的显著性图谱的消融实验:结果如下表所示,可见,w/o MLF性能始终更优。这可能是由于融合不同阶段的多尺度特征生成最终的显著性图谱时,会因尺度的急剧变化带来一些噪声,从而不可避免地导致精度下降。 因此使用 F P S − U 2 N e t FPS-U^2Net FPSU2Net模型时默认不含MLF。
    • w/o MLF: F P S − U 2 N e t FPS-U^2Net FPSU2Net不经过多级融合生成最终的显著性图。
    • w/MLF: F P S − U 2 N e t FPS-U^2Net FPSU2Net通过融合每个解码器模块在不同阶段的多级特征,生成最终的显著性图。

在这里插入图片描述

  • 5.不同阶段输出显著性图的消融实验:评估不同阶段(S1-S6)的输出显著性地图,其中S1是 F P S − U 2 N e t FPS-U^2Net FPSU2Net模型的最终结果。下图与下表均显示,随着阶段的增加,预测的显著性图逐渐变得模糊和混乱。 具体来说,第 1 阶段的显著性图最好,而第 6 阶段的显著性图最差,只能检测到一些模糊的火灾区域位置。

在这里插入图片描述
在这里插入图片描述
这是因为:

  • (1)FPS-U2Net 的解码器网络是一种渐进式双路径特征聚合结构,这意味着上层解码器块可以从之前的编码器和解码器块中聚合更多的上下文信息,从而预测出更准确的显著性地图。
  • (2)由于来自下层解码器块的显著性图的尺寸较小,因此需要较高的上采样率才能根据输入图像的尺寸调整显著性图的大小,而在上采样过程中会产生较多的像素误差,从而导致预测的显著性图的质量较低。

5.Conclusion

  本论文中首次将显著性目标检测技术应用于卫星遥感图像的火点检测当中,并提出新型网络 F P S − U 2 N e t FPS-U^2Net FPSU2Net,其基于 U 2 N e t p U^2Netp U2Netp和多极聚合架构,并采用混合损失函数BCE+IoU。 F P S − U 2 N e t FPS-U^2Net FPSU2Net的应用有效解决了现有方法面临的分割精度低、泛化性差等问题。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值