【高光谱遥感分类论文解读1】Hyperspectral Image Classification Using Group-Aware Hierarchical Transformer(GAHT)

目录

一、论文基本信息

二、研究背景

三、研究方法

1. GAHT总体框架

2. GPE模块

3. Transformer编码模块

四、实验


本文是博主对原论文的解读,仅代表博主个人观点,欢迎在评论区和我交流~其中,本博文中的图片和公式均来源于原论文,如需进一步了解,请查看原论文。

一、论文基本信息

       1. 期刊:TGRS(IEEE Transactions on Geoscience and Remote Sensing)

       2. 发表年份:2022年

       3. 研究方向:高光谱遥感影像分类——Transformer流派

       4. 引用格式:Mei S, Song C, Ma M, et al. Hyperspectral image classification using group-aware hierarchical transformer[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-14.

二、研究背景

       在高光谱影像分类中:

       (1)CNN感受野有限,难以捕捉长距离依赖关系;

       (2)Transformer类的方法能够弥补CNN的缺点,提取长距离的位置信息和波段信息,然而,也存在多头注意力机制(multi-head self-attention, MHSA)提取特征过度分散的问题。

       因此,文章提出层次化分组Transformer理念,提出像素组嵌入模块(grouped pixel embedding, GPE),将MHSA限制在局部的空谱上下文内,克服(2)中的缺点。

三、研究方法

1. GAHT总体框架

       GAHT是一个端到端的基于斑块(patch-wise)的空谱信息提取框架,其总体结构为:

       GAMT的核心部分由3个相似的阶段组成,每个阶段包括:GPE模块和若干Transformer编码器模块(三个阶段的个数分别为n1、n2、n3)。其中,GPE模块更加关注高光谱影像中空谱特征的局部关系,而含MHSA的Transformer编码器模块用于对位置和波段建模长距离依赖关系。两者对于局部和全局关系的关注侧重有利于在最后分类时得到全方位的信息以辅助决策。同时,每一阶段的GPE还有减少光谱维度的作用,从而形成层级形式的Transformer,不同阶段Transormer模块提取的特征分别代表低级、中级、高级特征(图中米色部分)。

       之后,全局平均池化层(global average pooling)用于压缩空间维度,形成一维向量。最后,通过全连接层实现对斑块中心像素的最终分类。

2. GPE模块

       Vision Transformer中的patch embedding模块将图像分成一系列不重叠的patches,然而,这种方法难以直接应用到高光谱遥感影像分类中。HSI分类模型的输入已经是一个小patch(3D-patch),且其在空间维通常是奇数(如7×7,9×9),难以再将其分割为相同大小的不重叠部分。

       为解决上述问题,文章提出了pixel embedding模块替代传统的patch embedding模块(如下图)。pixel embedding模块将高光谱分类网络的输入(3D-patch)使用1×1大小的卷积进行逐像素分割,形成像素序列。由此,奇数大小的空间维能够被分割,同时,不同像素之间的关系可以被充分学习。

       下图是(a)常规卷积和(b)分组卷积的对比。分组卷积将输入特征在通道上分为n组,每组通道个数为C/n,在每组内分别进行卷积操作,之后,对卷积输出特征图进行拼接。相较于普通卷积方式,分组卷积参数量小且不容易过拟合,能够提取连续子通道共享的判别信息,善于捕捉局部信息。论文在1×1分组卷积后加入BN和ReLU激活函数,最终得到GPE模块的输出。关于分组卷积更详细的介绍,参见【深度学习】Group Convolution分组卷积、Depthwise Convolution和Global Depthwise Convolution-CSDN博客

       GPE模块用公式可表达为:

       最后,为实现层次化的分类框架,各阶段输出通道个数设置为输入通道数的一半,即,总体框架图中的C3 = 1/2C2 = 1/4C1。将Transformer以层级方式搭建,在使用较少参数时即能有效地提升分类精度。

3. Transformer编码模块

       Transformer编码模块包含MHSA模块的交替层以及MLP(multilayer perceptron)层:

四、实验

       文章分别在Salinas、Pavia University、WHU-LongKou、HyRANK-Loukia四个数据集上进行实验,与M3D-DCNN、3D-CNN、DFFN、RSSAN、AB-LSTM、SF、SSFTT网络相比,GAHT均取得了较好的结果。同时,文章还探究了不同3D-patch大小、分组卷积数、Transformer Block数量等对实验的影响,并完成了消融实验。具体实验结果精度表格和可视化结果参见原论文。

  • 36
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值