【论文阅读】SCAttNet:具有空间和通道注意机制的高分辨率遥感图像语义分割网络

川川子溢

已于 2022-10-09 15:51:18 修改

阅读量1.1k

点赞数

分类专栏：图像深度学习语义分割 pytorch 文章标签：论文阅读计算机视觉深度学习

于 2022-10-09 15:42:04 首次发布

本文链接：https://blog.csdn.net/w_zyth/article/details/127227812

版权

语义分割同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

pytorch

5 篇文章 1 订阅

订阅专栏

图像深度学习

4 篇文章 6 订阅

订阅专栏

【论文阅读】SCAttNet:具有空间和通道注意机制的高分辨率遥感图像语义分割网络

文章目录

【论文阅读】SCAttNet:具有空间和通道注意机制的高分辨率遥感图像语义分割网络

一、总体介绍

处理使用数据集HRRSIs

由于地物的多样性和复杂性，HRRSIs往往表现出较大的类内方差和较小的类间方差，这给语义分割任务带来了巨大的挑战。

对比数据集（ISPRS）Vaihingen和Potsdam数据集

图像语义分割方法：

传统的图像语义分割方法（使用聚类、分类和阈值算法来分割图像）
基于深度学习的图像语义分割方法

本研究采用包含空间注意和通道注意的两个轻量级注意模块对HRRSIs进行语义分割

二、概述SCAttNet

它由两个部分组成:特征提取主干模块和注意模块

遥感图像，首先利用骨干网进行特征提取

提取出来的特征图输入到信道注意模块中，对通道中的特征进行细化

将优化后的通道特征图输入空间注意模块，在空间轴上进行细化

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YuvtwUXG-1665300912929)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005224141067.png)]$

特征提取骨干

使用了两个具有代表性的主干进行特征提取:SegNet和ResNet50

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WZpML6dG-1665300912930)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005230040239.png)]$

特征提取：

以SegNet为骨干的SCAttNet V1
以ResNet50为骨干的SCAttNet V2

ResNet50可以构建具有广泛接受域的深层模型（ResNet50使用了8次下采样）

2.1 Segnet网络构建

SegNet和FCN思路十分相似，只是Encoder,Decoder(Upsampling)使用的技术不一致。此外SegNet的编码器部分使用的是VGG16的前13层卷积网络，每个编码器层都对应一个解码器层

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AQhwff4H-1665300912930)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005233735782.png)]$

在每次下采样和上采样的过程中，都会保留相应的坐标位置

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1mekr3w7-1665300912931)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005234017676.png)]$

2.2 ResNet50网络构建

ResNet的各种网络结构图

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vZOlBfmF-1665300912931)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005234805781.png)]$

ResNet-50经过了4个Block，每一个Block中分别有3，4，6，3个Bottleneck

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZwZV5BIh-1665300912931)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005234922330.png)]$

三、注意力机制

（1）通道注意力

通道注意力的目的是利用特征图中各通道之间的关系来学习一个一维权值Wc∈R^(C×1×1)，然后将其乘以对应的通道

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2RnMYgAR-1665300912932)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005225954943.png)]$

The formula for calculating channel attention is shown in Formula 1（注意力通道的计算公式）：

在这里插入图片描述

（2）空间注意力

空间注意力它关注的是当前任务有价值的地方，利用空间注意对聚集空间信息是有用的，特别是对小型地物

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fMU0LRlm-1665300912932)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005230017869.png)]$

具体使用方法：

通过全局平均池和全局最大池操作为每个空间位置生成两个特征描述图
将两个特征描述图连接在一起，通过7 × 7卷积运算生成空间注意图
使用sigmoid函数将空间特征地图缩放到0 ~ 1

The spatial attention calculation formula is shown in Formula （空间注意力计算公式）：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ODivTc5W-1665300912933)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005225653599.png)]$

需要注意的部分存在：

其中通道注意模块的参数个数为C × C/4(C为通道个数)
空间注意模块的参数个数和为98
我们只在骨干网的端层增加了注意模块
采用Woo的方法来整合两个注意模块

四、评价指标及相应结果

用了三个评估指标，来评估语义分割性能分别是：

mean inter-section over union(MIoU)
average F1-score (AF)
总体精度overall accuracy (OA)

随机裁剪，得到27000个256 × 256的patch用于训练

Training all the model from the scratch without bells and whistles

(从头开始训练所有的模型，没有花哨的修饰)

使用的对比模型：

fc -32s（FCN）、fc -8s、Unet、SegNet和G-FRNet等型号均采用VGG-16作为骨干
RefineNet进行32次下采样,ResNet50作为骨干
DeepLabv3+进行8次下采样,ResNet50作为骨干

训练参数：

SCAttNet V1在Vaihingen和Potsdam数据集上的学习率分别设置为1e-3和1e-4
SCAttNet V2的学习率设置为1e-3
Adam作为优化器
交叉熵作为损失函数
训练时间设定为50 epoch
batch size 为 16

第一行展示了ISPRS Vaihingen数据集的可视化结果，从左到右依次为:原始图像、SegNet输出结果、SCAttNet V1输出结果和地面真相

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cib1t3NW-1665300912933)(C:\Users\isipa\AppData\Roaming\Typora\typora-user-images\image-20221005232850000.png)]$