摘要
抛出问题:基于深度学习的框架在将平衡局部空间结构信息的时候对于区域信息的特征建模能力会下降!
紧接着提出一个G²T(Graph–guided transformer)模型,整个网络的框架为:首先使用卷积块获取像素级别的特征同时对于输入的HSI信息通过在超像素尺度上的语义获取无向图,然后使用图引导自注意力机制对于超像素节点间进行全局和局部相关性建模,之后将像素级特征和超像素级区域特征进行集成用于生成HSI的分类结果。
并且论文给出了代码的下载地址:论文所给代码下载地址
前人工作
赵等人提出了一种基于卷积神经网络的紧凑带权模型。该网络基于对给定分类任务的贡献来评估多个光谱带。Dosovistky等人提出了ViT,它能够利用其独特的多头注意力机制对序列中的token进行长距离依赖建模。孙等人提出了一种光谱空间特征标记化transformer(SSFTT)方法,用于捕获光谱空间特征和深度语义特征。作者指出前文的这些内容都是基于patch输入的,这只包含了中心像素和周围像素的信息,由于感受野的限制基于卷积神经网络的方法很难提取长距离特征,基于Transformer的方法通常具有建模全局相关性的潜力,但受限于HSI补丁的固定大小。此外,它们通常需要大量的标签来进行模型训练。
为了减轻空间上下文约束问题,基于图像的全局学习方法在HSI分类中变得流行起来。Yu等人提出了一个双通道卷积网络(DCCN),用于在整个HSI中提取全局和多尺度的重要特征。然而堆叠的多层卷积核不能有效的提取全局信息,刘等人提出了一种基于卷积神经网络的图卷积网络(CEGCN)。该方法可以自动将常规网格数据(HSI)编码为不规则图形数据(超像素),以提取中长距离信息,并将图形数据解码为每个像素的更精细特征。然而,图卷积网络更侧重于从相邻超像素区域聚合信息,忽略了超像素内的全局注意力。Yu等人提出了一种多级谱间-空间transformer(MSTNet),用于在整个HSI中提取全局和多尺度重要特征。然而,Transformer中的自注意力机制将输入标记视为一个全连接图,忽略了HSI中的固有图结构信息。
网络概述
首先通过CNN获取特征图,然后将特征图编码为包含了HSI数据的内在空间结构信息的无向图,使用图引导自注意力机制(G²SA)获取区域级特征,图引导自注意力机制利用超像素的邻接矩阵作为归纳偏置来引导自注意力操作,以此来捕捉超像素节点之间的全局以来和局部空间信息,最终融合像素级特征和区域级特征用来进行分类。
提出的模型的优点:
- 实现了无patch的快速推理,通过在像素尺度和超像素尺度上学习互补性的信息提升了分类的表现
- G²T是第一个专为HSI分类中超像素节点之间的相关性进行量化的transformer框架。所提出的G²T在相邻超像素信息的指导下,可以捕获区域级别的图像特征以及相邻超像素之间的相关性。
- 性能好
基于超像素的图的构建
考虑到将HSI原始图像中的每一个像素都视为一个节点会带来特别大的开销,因此采用了SGC方法,使用这种方法将大量的像素节点转换为了带有很少的超像素节点的无向图,
流程:cnn–>LDA&SLIC–>超像素图
通过此矩阵U产生超像素节点
F进行变形,U进行列归一化得到公式中的值,超像素的解码可以表示为
超像素节点之间的邻接矩阵
图引导自注意力机制
首先使用E加上单位矩阵,然后求出关于图的对角度矩阵,在计算注意力分数的时候利用了图的对角度矩阵。这里比较新颖,没有看到别人在注意力分数的计算上进行更改
整个模型
实验
-
图引导多头自注意力机制中头数和层数对于分类精度的影响
-
参数实验——语义尺度参数⁁对于分类精度的影响
-
对比试验——所提出的模型与常规的VIT进行对比(证明图引导是有用的)
-
和其他论文中提出的方法的对比实验
-
不同训练集比例下模型的精度
-
PU训练集上的参数量、训练时间、测试时间等参数