【论文阅读】基于双量程上下文聚合的遥感图像高效语义分割
Dual-Range Context Aggregation for Efficient Semantic Segmentation in Remote Sensing Images
摘要在遥感图像语义分割任务中引入自注意机制有利于建立远程依赖关系和挖掘全局上下文信息
轻量级的双范围上下文聚合网络(LDCANet)
双范围上下文聚合模块(DCAM)
对卷积和自关注获得的局部特征和全局语义上下文进行聚合
两个级联的线性层来实现,从而降低计算复杂度
基于多层感知器(MLP)的高效线性块(ELB)解码器
一、介绍
FCN被提出用于实现像素化预测和端到端语义分割训练
PSPNet提出了可变核大小的全局池化问题,以捕获不同区域的上下文信息
追求更轻量级的体系结构:
-
ENet[15]被提出通过压缩信道来减少网络参数。
-
图像级联网络(Image cascade network, ICNet)[16]引入了级联特征融合来实现快速分割模型
卷积可以有效地捕获局部信息
语义分割依赖于对多层特征映射的远程建模
注意力机制具有捕获远程依赖关系和从整个图像建模全局信息的能力
一种自注意机制来捕捉图像的丰富对象上下文
作用:
- DCAM将卷积和自关注获得的局部特征和全局语义上下文进行聚合
- 多层感知器(MLP)的高效线性块(ELB)方法,对不同深度的信息进行聚合
二、相应模型
2.1 整体框架
LDCANet遵循简单而清晰的编码器-解码器结构
模型框架:
相应进行步骤:
- 具有四层编码层的初始块组成
- 编码层中都使用了有效的特征提取和增加特征维数
- 最大池化层仅在前两编码层中使用,以减小特征映射的大小
- 解码器中,提出的ELB将特征图上采样到原始分辨率的1/4
- 初始块输出的前特征图连接
- 拼接低分辨率特征图进行上采样
2.2 DCAM
DCAM被设计为以低计算成本集成局部和全局上下文信息
捕获局部信息和探索全局上下文的功能解耦为两条路径,通过重加权和拼接操作,将每条路径提取的特征进行组合
上分支:
- 逆瓶颈结构,
- 减轻信息丢失和梯度混淆,
- 采用两个深度可分离的卷积
下分支:
- 细化整个分支
- 简化自我关注来捕获远程依赖关系
在结合方面,应用1 × 1卷积,然后进行批处理归一化来平衡特征的尺度。然后,我们将连接的特征集合在一起,计算一个权重向量,该权重向量可以重新加权特征,相当于特征的选择和组合。最后,采用通道洗牌操作增强融合特征的信息流交互
2.3 ELB模型
提出了仅由一个卷积层和几个MLP层组成的ELB
由于编码器中的自注意机制可以带来更大的有效接受场,因此我们基于mlp的ELB足以用于语义分割任务中的全局推理
具体操作:
- 第一个卷积层随后是批处理归一化和ReLU,用于对齐通道维度
- 利用激活和转置操作的线性层,以更低的计算成本获得更好的分割结果
- 最后一层将转置后的特征上采样到输入图像的1/4大小
三、实验结果
数据集:
Vaihingen数据集由33个光谱波段(近红外,红色和绿色(IRRG))的图像组成。该数据集的地面采样距离(GSD)为9 cm,平均大小为2494 × 2064像素
GID包含10幅RGB图像,大小为7200 × 6800像素,每张图像标记为15类土地利用类别
分割方案:
- Vaihingen中15,1和17张用于训练,验证和测试的图像
- GID分为三个部分,得到6个训练图像、2个验证图像和2个测试图像
- 并将图像裁剪为512 × 512像素
评价指标:
- 总体准确率(OA)
- F1分数
- mIoU