论文笔记(十四)MRSE-Net:用于卫星图像水体分割的多尺度残差和SE注意力网络

MRSE-Net: Multiscale Residuals and SE-Attention Network for Water Body Segmentation From Satellite Images

作者:Xinyu Zhang, Jinjiang Li , and Zhen Hua

期刊:IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING(SCI 3区)

年份:2022

关键词:卷积神经网络,深度学习,多尺度残差,SE-attention,卫星图像分析,水体提取

目录

摘要

一、介绍

二、相关工作 

A.水体提取方法 

B. 编码器-解码器结构

三、提议的方法

A. MRSE-Net 架构

B. 多尺度残差模块结构 

C. SE-Attention模块结构 

D. 改进的skip connection结构 

E. 损失函数 

F. 实施 

四、实验 

A、数据 

B. 评估指标 

C. 评估 

D. 跨数据集评估 

E. 消融研究 

五、结论 


摘要

         从包含复杂目标的各种卫星图像中自动提取水体是遥感和图像解译中非常重要且具有挑战性的任务。近年来,卷积神经网络(cnn)已成为遥感图像语义分割领域的重要选择。然而,一般的CNN模型在进行水体分割时存在很多问题,如:1)水体边界模糊;2)难以适应不同尺度的河流,经常丢失许多小尺度河流的信息;3)大量可训练参数。本文提出了一种基于多尺度残差和挤压激励(SE)注意的端到端CNN水分割结构,称为MRSE-Net。MRSE-Net由编码器-解码器和跳过连接组成,通过编码器捕获不同尺度的上下文信息,然后通过改进的跳过连接传递编码器特征映射,同时实现解码器的定位。利用多尺度残差模块,可以显著减少模型中参数的数量,准确提取水像元。利用SE-attention模块增强预测结果,减轻模糊效应,使分割的水界更加连续。利用Landsat-8卫星图像来训练我们的模型,验证我们提出的方法的性能和有效性。此外,在Landsat-7和Sentinel-2图像上对该方法进行了评价,得到了最佳的水分割结果。在Sentinel-2图像上的初步结果表明,我们的模型的跨传感器泛化能力超出了Landsat传感器系列的范围。 

一、介绍

1、早期

  • 采用阈值法提取水体,其中单波段阈值法利用水体在近红外波段的低反射率,确定一个区分水体与其他物体的灰度阈值进行水体提取,是水体识别最简单的方法。但是,这种方法在山区使用时无法区分水体和山影,存在一定的局限性。
  • 光谱水指数则充分考虑了不同波段之间的相关性,成图精度较高,加上成本较低,应用更为广泛,其中mcfeters[11]提出的归一化差分水体指数(NDWI)为第一水体指数,其次为第二水体指数。针对归一化差分水指数(NDWI)在建筑物面上表现不佳的问题,XU提出了修正的归一化差分水指数(MNDWI)。在过去的几十年里,已经提出了许多其他的水指数[13]-[15],但它们一般在同时包括阴影、建筑物和薄云的复杂场景下表现出来,都需要人工调整阈值,很容易陷入局部最优阈值,不能表达最好的结果。  

2、传统

        此外,还有一些更常用的水体提取方法,如支持向量机[16]、[17]、活动轮廓模型[18]-[20]、基于马尔可夫随机场(MRF)的模型[21]–[23],以及基于对象的分类 [24]、[25]。

  • 支持向量机、决策树等,都是基于单像素点进行识别,没有考虑到单个像素点之间的联系,识别准确率不是很高。
  • 活动轮廓模型对初始位置敏感,难以自动获取初始位置。
  • 基于 MRF 的方法计算量大,难以应用于大面积图像,尤其是在遥感方向上,并且在分割过程中往往会产生许多小尺度图像对象(椒盐脆饼噪声)。

        虽然基于对象的分类方法利用了遥感图像的纹理和光谱特征,但是水体提取最佳尺度的确定和特征的选择直接影响最终分割的准确性。

        总体而言,这些传统的水体提取方法虽然能够有效获取水体信息,但提取结果存在较为严重的椒盐噪声,易受复杂环境影响,难以应用于全球范围内的大规模自动水体提取。

3、深度学习

        近年来,硬件设备的更新和大规模数据集的出现推动了深度学习的发展,尤其是卷积神经网络(CNNs),通过将图像中相邻像素之间的相关性引入到预测中,提高了预测精度。内容识别过程通过其独特的感知场机制,使其成为语义分割领域的主流方法。

  • 全CNN-based[26]-[28]和encoder-decoder结构(U型)[29]-[31]成为遥感图像语义分割领域的两个代表性网络结构,特别是 U-Net,它大大优于传统的水体分割方法 [32],[33]。
  • Dai等人[34]针对双边分割网络(BiSeNet)[35]分割中边界细节丢失的问题提出了一种新的基于边缘的损失函数,改进了BiSeNet,提高了分割精度。
  • Li 等人 [36] 添加了空间金字塔池化 (spatial pyramid pooling, SPP) 模块和注意力模块,以构建更稳健的 PAU-Net 水提取网络 [37],降低错误分割的概率。
  • Dirscherl等人[38]使用atrous spatial pyramid pooling (ASPP)模块[39]提取多尺度特征并改进U-Net,通过使用跳跃连​​接结合浅层和深层特征来提高Sentinel-1和Sentinel的水提取精度-2。
  • 任等[40]提出了双注意力U-Net模型(DAU-Net),使用位置注意力模块(PAM)和通道注意力模块(CAM)提高了模型的表征能力,相比之下提高了1%的水体分割精度到原始的 U-Net 网络。

        如果将通用的 CNN 结构 [全卷积网络 (FCNs) [26] 或 U-Net [29]] 直接用于地表水提取而无需修改,则经常会出现预测精度差和水体边界模糊的情况,并伴有视觉退化。 

如何提高预测精度和保持水体边界的准确分割是遥感影像水体分割面临的两个重要问题。

在遥感图像水体提取任务中,我们感兴趣的是从各种形式的遥感图像中分割出各种水体(湖泊、河流、冰川等),然而,这些感兴趣的对象往往具有不规则和不同的比例。

        如图1所示,我们发现遥感图像中的水体大小可能变化很大,从狭窄或宽阔的河流到椭圆形的湖泊,这在全球遥感图像水体提取任务中非常常见。 

 图 1 遥感影像中水体的尺度变化。

(a)–(c) 分别由 Landsat-8 遥感卫星捕获的较宽河流、狭窄河流和椭圆形湖泊的示例。


        考虑到以上发现,如果我们想得到一个满意的预测结果,我们使用的 CNN 应该被设计成能够分析不同尺度的水体,据我们所知,这个问题已经在一些发达的计算机视觉领域得到解决,比如医学图像分割,目标检测等,但是在遥感领域图像水体提取,这个问题没有很好解决。该问题在遥感图像水分提取领域一直没有得到很好的解决。

  • 早期,Serre 等人 [46] 受到视觉皮层对人类和灵长类动物视觉的视觉建模的启发,通过一系列不同大小的 Gabor 滤波器来解决图像中的多尺度变化
  • 后来,Szegedy 等人[47] 创新性地提出了 inception 网络结构,其中 inception 模块通过并行使用不同大小的卷积核获取图像中不同尺度的信息,然后将这些包含不同尺度的特征信息组合在一起并通过它深入网络。
  • 而 Chen 等人[39] 受到 SPP 的启发,提出了 ASPP,同样通过使用不同空洞率的卷积层获得了不同尺度的感知场

        我们发现在通用语义分割模型 U-Net 中,有两个连续的 3×3 卷积层,并且在 [48] 中证明了这两个连续的 3×3 卷积操作相当于一个 5×5 卷积操作,所以我们用一系列连续的 3 × 3 卷积层代替 5 × 5 和 7 × 7 卷积层,并依次增加每个卷积层中的过滤器数量,这可以大大减少内存需求,也可以在图像中获得我们需要的多尺度信息。使用更大的卷积核或步幅更大的池化层来获得更大的感知场将分别导致过多的计算量和过多的分辨率损失,而过多的分辨率损失将导致图像边界处的特征信息得不到利用。我们的方法可以说是从 U-Net 获取多尺度空间特征并确保分辨率不会下降太多的最简单方法,我们将其命名为多尺度残差模块(图 3),与初始模块不同,我们通过串联而不是并行连接卷积层来获得多尺度信息。

图 3. 我们提出了一个多尺度残差模块。 (a) 从类似 inception 的结构开始,并行使用 3 × 3、5 × 5 和 7 × 7 卷积并连接以生成输出。这允许我们的网络获得不同尺度的空间特征。然而,我们不是并行使用 3 × 3、5 × 5 和 7 × 7 滤波器,(b) 我们将 5 × 5 和 7 × 7 滤波器分解为一系列更小的 3 × 3 滤波器。 (c) 显示了我们的多尺度残差模块。为了减少参数数量,我们逐渐增加连续三个 3×3 过滤器的数量,并使用 1×1 过滤器添加残差连接以进行维数维护。   

        为了获得准确和连续的水体边界并提高预测精度,我们提出了一种改进的多尺度残差编码器-解码器网络来从遥感卫星拍摄的图像中有效提取水体。由于卫星拍摄的遥感影像包含丰富的特征信息和场景,存在大量冗余特征,极大地影响了模型对水体的特征识别能力。为了提高网络在不增加模型复杂性和引入新空间维度的情况下基于各个特征之间的关系为分割任务提取最重要的关键特征的能力,我们采用了轻量级挤压和激发(SE)注意机制[49],它通过“特征重新校准”策略明确地模拟各个通道之间的依赖关系。我们认为 SE 注意力机制对 MRSE-Net 在全球遥感图像水提取任务中起着重要作用,第四节的实验也证明了 SE 注意力机制提高了预测精度。网络中通道数最多的瓶颈层使用我们设计的特征转换模块代替普通的卷积层&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值