【论文阅读】结合空洞卷积的 FuseNet变体网络高分辨率遥感影像语义分割
一、论文总体框架
首先,采用 FuseNet变体网络将数字地表模型(digital surface model,DSM)图像中包含的高程信息与红绿蓝(red green blue,RGB)图像的颜色信息融合
其次,在编码器和解码器中分别使用空洞卷积来增大卷积核感受野;最后,对遥感影像逐像素分类,输出遥感影像语义分割结果
高分辨率语义分割图像基本分为:
- 红绿蓝(red green blue,RGB)信息
- 数字地表模型(digital surface model,DSM)
文中所提及的在对相应图片处理时
分别提取红绿蓝(red green blue,RGB)信息和数字地表模型(digital surface model,DSM)
信息,并将它们融合集成到 SegNet结构中进行语义分割,获得高分辨率的多模态预测 RGB‐DSM数据用于异构数据源的联合学习
参考文献: Sherrah J. Fully Convolutional Networks for Dense Semantic Labelling of High‐Resolution Aerial Imagery[EB/OL]. (2016‐06‐08)[2020‐06‐22].
https://www. doc88. com/p-0704858988942. html
二、数据集的使用
采用的数据集:
国际摄影测量与遥感学会(Interna‐tional Society for Photogrammetry and Remote Sensing,ISPRS),
Potsdam、Vaihingen数据集
数据集介绍:
Potsdam
共38张6000*6000像素无人机影像,分辨率为 5 厘米/像素。
数据集中包含三种不同通道:
- 影像数据
- 地形数据
- 标签数据
TOP RGBIR:真实正射影像,红、绿、蓝、红外四通道;
TOP IRRG:真实正射影像,三通道红外、红、绿;
TOP RGB:真实正射影像,红、绿、蓝三通道;
DSM:数字表面模型;
GT:真实标签
标签数据包括:带边界的和不带边界的
链接:https://pan.baidu.com/s/1fYD6GtGVNt2j5ueYH5wirA
提取码:kwaw
(百度网盘数据,由”小了白了兔_白了又了白“CSDN作者提供)
三、构建模型
使用了两个编码器对 RGB和 DSM进行联合编码,首先将编码后的特征图输入到解码器中进行上采样,然后
由分类器进行弱分类 ,通过 softmax得到最终分割结果
在整个的cat中对DSM的数据进行融合,并采用了两种融合方式
对主数据源和辅助数据源进行一次卷积运算,从而产生一种虚拟模态。将该虚拟模态作为融合数据源之一,
将 DSM分支提取的特征和 RGB分支提取的特征进行融合
对网络的整体把握如下图所示:
四、细节丢失处理
该数据集包含33幅不同大小的遥感图像,每幅图像都是从一个更大的顶层正射影像图片提取的,图像选择的过程避免了出现没有数据的情况。顶层影像和DSM的空间分辨率为9 cm。遥感图像格式为8位TIFF文件,由近红外、红色和绿色3个波段组成。DSM是单波段的TIFF文件,灰度等级(对应于DSM高度)为32位浮点值编码。
反池化操作是根据索引和特征图进行补 0,这种反池化操作将抽象特征转换为几何特征
- 反池化操作后,卷积块增加稀疏特征图的密度。重复此过程,直到特征图与输入分辨率一致
- 利用反池化操作,一定程度上缓解了细节丢失问题,使得该基本结构对于分割小目标地物效果也较好
- 在连接过程中如果空间分辨率不 一致 ,则将输入特征图通过 1×1的卷积核投影成与输出特征图相同的维度
五、测试过程
测试过程说明:
- 设置初始学习率为 0.01
- 每隔 5个迭代次数将学习率除以 10直至 0.00001
- 动量参数为0.9
- 权重衰减为 0.0005
- 归一化大小为 10