HA-Net: A Lake Water Body Extraction Network Based on Hybrid-Scale Attention and Transfer Learning
作者:Zhaobin Wang , Xiong Gao and Yaonan Zhang
期刊:remote sensing
日期:2022
原文链接:https://doi.org/10.3390/rs13204121
关键词:深卷积神经网络;遥感图像;语义分割;青藏高原;迁移学习;注意机制
摘要
由于遥感影像噪声量大、空间背景复杂,如何提高语义分割的精度成为研究热点。湖泊水体提取对于灾害检测、资源利用、碳循环等至关重要。青藏高原湖泊面积因地壳运动而不断变化。大多数用于遥感图像的卷积神经网络都是基于单层特征进行像素分类,而忽略了这些特征在不同层中的相关性。在本文中,提出了双分支编码器,它是一种多尺度结构,结合了 ResNet-34 的特征和特征金字塔网络。其次,使用混合尺度注意力块将自适应权重分配给全局信息。最后,使用PixelShuffle恢复特征图的分辨率,并使用密集连接的块来细化湖泊水体的边界。同样,我们将保存在 Google 数据集上的最佳权重转移到 Landsat-8 数据集,以确保我们提出的方法是稳健的。我们在两个给定的数据集上验证了混合尺度注意力网络 (HA-Net) 的优越性,这些数据集是我们使用 Google 和 Landsat-8 遥感图像创建的。 (1) 在谷歌数据集上,HA-Net在所有五个评估指标中表现最好,Mean Intersection over Union (MIoU) 为97.38%,比DeepLab V3+提高了1.04%,训练时间减少了约每个纪元 100 秒。此外,HA-Net 的整体准确率 (OA)、召回率、真水率 (TWR) 和假水率 (FWR) 分别为 98.88%、98.03%、98.24% 和 1.76%。 (2) 在 Landsat-8 数据集上,HA-Net 实现了最好的整体精度,与 Pre_PSPNet 相比,真水率 (TWR) 提高了 2.93%,证明比其他高级模型更稳健。
1.介绍
青藏高原是亚洲生态系统的安全屏障,也被誉为世界第三极[1]和亚洲水塔[2]。青藏高原湖泊众多,大小不一,占我国湖泊面积的绝大部分[3]。湖泊作为环境变化的哨兵和气候变化的信号,具有重要的研究价值[4]。近年来,研究表明全球变暖加速了冰川融化 [5] 和永久冻土层退化 [6],其中大部分湖泊在过去 30 年内不断扩大。也可以证实,由于冰川径流增加,青藏高原湖泊面积以每年0.83%的速度扩大[7]。盐湖泛滥不仅造成陆地和淡水湖泊污染,破坏生态环境,也扰乱居民生活。
随着全球观测技术和传感设备的发展,越来越多的遥感卫星如多光谱卫星、高光谱卫星和高分辨率卫星被研制出来。获得的遥感图像不仅可以捕获详细的地面信息,还可以准确分析感兴趣的区域。随着对遥感影像所含信息量的分析能力逐渐增强,对目标区域进行分析的需求也越来越大。因此,湖泊水体的自动提取对于监测遥感影像中湖泊的变化具有重要意义。
从远程感知图像中自动提取水体是水资源管理的重要组成部分,也是遥感科学的重要组成部分。 为了消除山阴、云阴、冰雪积累等误导性信息,提出了大量遥感图像水体提取的传统方法,主要可分为基于水指数的光谱分析方法,以及基于机器学习的分类方法。
随着海量遥感数据处理需求的不断增加,水体指标法是一种常用的水体提取方法,其主要目的是增强水体特征,抑制非水体特征,然后通过选择最优阈值实现水体提取价值。麦克菲特斯等人。 [8] 利用水在近红外波段的低反射率和绿色波段的高反射率来增强水体的特征,从而产生归一化差异水指数(NDWI)。 NDWI的提出促进了遥感图像水提取领域的快速发展,后续研究人员基于NDWI进行了大量研究。为了解决 NDWI 不能很好地抑制建成区噪声以及植被和土壤噪声的问题,Xu 等人。 [9]将近红外波段替换为短波红外波段以增强遥感图像中开阔水体的特征,并将其命名为修正的近红外波段(MNDWI)。 NDWI也被一些研究人员结合其他指标来去除阴影对水体提取精度的干扰。谢等。 [10]将NDWI与用于描述阴影区域的形态阴影指数(MSI)相结合,提出NDWI-MSI,能够在抑制阴影区域的同时突出水体。卡普兰等人。 [11] 提出水体提取地表温度指数(WESTI)结合NDWI和水体间地表温度变异性等噪声,提高寒冷地区水体提取精度。
虽然基于水指数方法的水体提取精度正在提高,但它们都需要一个阈值来区分水域和非水域,其中主观和静态阈值可能导致地表水域的过高或低估[12]。 由于避免人工选择阈值和更好的图像理解的优点,基于机器学习的分类方法通常用于从遥感图像中提取水体。 他们主要使用手工设计的水体特征来形成一个特征空间,然后将其馈送到机器学习分类器中,以实现水体的提取。 Balázs等人[13]使用主要成分分析来减少频谱指数的频带之间的相关性,这些频带被输入到具有主要成分( PC )的分类器中,以区分三个与水相关的类别:水体、饱和土壤和非水。 Saghafi等[14]利用数据融合方法提高多光谱图像的分辨率,进行信息增强,然后利用提取的特征对高分辨率多光谱图像进行分类,证明了多传感器融合对水体提取的意义。 虽然所有上述方法都实现了良好的分类准确性,但它们通常需要一定量的先验知识来手动提取特征。 同时,手动提取的特征有一定的局限性,缺乏一定的泛化能力。
在计算机视觉的特殊领域,与传统的机器学习方法相比,深度卷积神经网络(DCNN)的准确性更高。 2012年,AlexNet [15] 正式提出用于ImageNet分类任务,该任务为DCNN的广泛应用奠定了基础。 此外,还提出了各种骨干网络来改善AlexNet的缺点。 例如,ResNet [16]、ResNeXt [17]、RegNet [18],它们使用残余学习模块来避免因网络深度增加而导致的降解问题。 轻量级网络由MobileNet[19]代表,减少了可训练参数的数量,这将一般卷积分为深度卷积和指向卷积。 密切连接的卷积神经网络,如DenseNet [20],将当前层连接到所有以前的层。
语义分割的目的是根据softmax或sigmoid函数计算的概率映射,为每个像素分配类标签。 DCNN 在自然图像分割方面取得了卓越的性能,近年来它们也被用于遥感图像分析[21-24]。 然而,具有多尺度特征的遥感图像和目标的复杂背景导致先进网络无法正确建模前景。 因此,它的表现很差。 遥感图像分析也是用于尽量减少噪声干扰的重要应用领域,例如建筑占地面积提取[25-28]、道路提取[29,30]、水体提取[31-33]、土地覆盖分割[34-37]。
湖泊是全球气候变化的重要指标。传统的水体提取方法均存在泛化能力差、计算复杂度高、提取精度低等缺点。许多研究人员已将 DCNN 用于水体的提取。受限感受野反卷积网络(RRF DeconvNet)[21]被提出用于对遥感图像中的水体进行精确提取,但没有使用预训练的权重来初始化模型。为了克服 DCNN 在下采样过程中由于边界信息丢失而导致的边界模糊问题,提出了一种新的边缘加权损失函数,为边界附近的像素分配更大的权重。但由于单一的扩展率,不足以应对噪声干扰、多尺度特征等常见问题。翁等。 [22] 通过引入深度可分离卷积来改进特征提取方法,以降低过拟合的风险,并通过空洞卷积扩大感受野。在编码器阶段采用级联的方法获取小水体的信息。郭等。 [23]使用四个平行的扩张卷积形成多尺度特征提取器,保证了小水体提取的准确性。上述所有方法都使用扩张卷积来捕获更多的多尺度上下文信息,然而,较浅的编码器无法在具有强噪声干扰的区域中提取足够的特征用于像素分类。为了降低过度拟合的风险,Wang 等人。 [24] 使用引入深度可分离卷积的 ResNet-101 作为编码器来防止过度拟合。虽然获得了较高的准确率,但其训练时间过长。
注意力机制是计算机视觉领域的一个重要研究领域,已经被许多研究者应用到遥感图像中的水体提取中,重点是对不同重要信息的自适应加权。提出了一种双分支注意力机制网络[31],其中一个较深的分支用于提取多尺度通道特征,另一个较浅的分支用于提取位置信息,并将两个分支融合以分割水体。但是,它不能准确提取小水体和边缘信息。夏等。 [32] 通过浅层特征和大规模注意力模块定位水体,同时使用深层特征和小规模注意力模块分割水体边缘,但他们使用条件随机场(CRF)进一步增强提取能力。曾等。 [33] 提出了一种自适应的行列自注意机制,无需使用后处理即可实现水塘的高精度提取。
在本文中,提出了一种基于全卷积神经网络的模型来对 Google 数据集进行像素分类并验证 Landsat-8 数据集的鲁棒性。首先,我们提出了一种双分支编码器结构,它使用 ResNet34 提取湖泊水体的深层语义特征,并使用特征金字塔网络 (FPN) 融合提取的不同分辨率的特征。由于低类间方差和高类内方差特征,我们使用混合尺度注意块(HAB)对特征图的空间和通道信息进行加权,以减少噪声的干扰。在上采样期间,使用像素混洗卷积上采样块 (PCUB) 将低分辨率特征图恢复到原始图像的空间分辨率,并细化分割边界。本文的主要贡献总结为以下