1引言
本文主要是对《DCN-T: Dual Context Network with Transformer for Hyperspectral Image Classification》这篇论文的一个解读与总结,原文链接:DCN-T: Dual Context Network With Transformer for Hyperspectral Image Classification | IEEE Journals & Magazine | IEEE Xplore
本篇论文是对高光谱图像分类的一个模型设计。作者采用了一个端对端的DCN-T(双分支上下文网络)对图像进行分割分类。首先将高光谱图像转换为三光谱图像,从而可以使用现成的ImageNet预训练骨干网络进行特征提取。接着采用DCM(双分支模型)提取区域适应上下文(RAC)特征和全局聚合上下文(GAC)特征进行融合得到包含全局局部信息的特征。再采用软分类的方式得到各个类别的概率,得到分类结果。最后总的损失函数包括结果预测损失和辅助损失,两者采用交叉熵损失函数计算损失值。
2 现已有研究存在的问题
高光谱图像(HSI)存在“空间变异性”,同一对象在不同的地域环境下表现出不同的特征,由此产生混合类别的问题导致类间相似性,从而增加分类难度。
为了解决这一问题,提取重要的判别特征,现有的许多网络模型在大规模数据集(如ImageNet)上进行预训练,使用预训练权重来增加深度网络的性能和收敛的有效性。
然而由于自然图像和高光谱图像之间的通道数存在差异,这些网络不能直接用于高光谱图像的分类。因此现有的许多方法都是采用将高光谱图像转换为三光谱图像进行处理,但是由于高光谱图像含有丰富的光谱信息,这将导致大量的光谱信息的损失。
同时由于高光谱图像含有丰富的光谱信息,光谱维度很高,随机选择三通道进行组合会生成一个庞大的三光谱图像集合,进而再采用集合方式进行评估时将会引入巨大的计算负担,这在实践中是不可行的。
3 模型架构
3.1 三光谱图像的生成
三光谱图像生成管道包括三步:分组和聚合、随机通道选择、图像拉伸。
3.1.1 分组和聚合
① 分组
因为相邻的通道具有高度相关性,因此我们采用沿着光谱方向进行划分而不是随机分组。
原始图像 ,将图像沿光谱方向分为
组,
得到 。
其中每一组可以表示为 。
② 聚合
通过平均值聚合每组内的通道得到新的通道作为三光谱图像中的一维。
公式如下: 。
原始的HSI转换为 。
3.1.2 随机通道选择
从 中随机选择三个子图像都可用于生成三光谱图像。
受RGB图像中通道的相对顺序的启发,我们采用最长子图像作为第一通道,将最小的子图像作为最后一个通道。
这种策略不仅保留了原始的光谱信息,从而进一步排除了不必要的组合,大大的减少了生成三光谱图像的数量。
因为最初可以产生 张三光谱图像,按照相对顺序排列后,可以产生
张三光谱图像。
3.1.3 图像拉伸
由于初始获得的三光谱图像相较模糊,我们采用线性拉伸的方式使图像生成更高的对比度,使图像更加接近RGB自然图像。
采用线性2%拉伸,将三光谱图像的直方图中2%到98%之间的值缩放到(0-255),而小于2%或大于98%的值将直接分配为0和255。
公式如下:
3.2 使用Transformer的双上下文网络(DCT-T)
DCT-T网络由 Dual Context Model(DCM)与 ImageNet预训练的骨干网络 相结合。
该网络将生成的三光谱图像集送入修改后的VGG - 16骨干网络,采用ImageNet预训练参数,并额外增加一个卷积层,为后续的DCM产生一个高级特征表示 F 。将DCM的输出与原始高级特征表示F进行残差连接,得到最终预测。在骨干网中的阶段3特征上定义了一个辅助损失与结果损失相结合作为最终损失。
网络总体架构图如下所示:
3.2.1 DCM
3.2.1.1 生成同质区域
将由高光谱图像转换成的三光谱数据集表示为 ,其中每一个
对应下面的每一个小方块。
生成同质区域,不是单纯的均等分划分同质区域,而是通过计算判断每一个 属于哪个同质区域,对
进行分类。
① 先简单划分同质区域,获取得到每个初始同质区域的聚类中心。
② 计算每个 和初始同质区域聚类中心的距离。
③ 将与像素最小距离的同质区域作为这个像素的所属同质区域。
④ 重新计算分配好的同质区域的聚类中心。
其中 中包含所有属于同质区域 i 的位置,公式可以表示为:
然而由于 argmax 函数不能微分,不能用于端对端的网络训练,因此采用软赋值法计算每个同质区域的聚类中心。
3.2.1.2 Transformer
Transformer由Encoder和Decoder两个模块组成,它的模型结构如下图所示:
(1)Encoder
由于上面生成的不规则同质区域有不等长度的标记,因此我们不采用预定义的位置编码来拟合嵌入特征的大小,我们采用 3×3 的深度卷积来生成位置编码。
因此,编码器的处理过程可以表示为如下公式:
(2)Decoder
因为解码器的输入是生成的RAC特征,同时编码器不需要位置编码,因此可以采用MHA代替MHSA。
3.2.1.3 Regional Adaptive Context(RAC)
RAC表示每个同质区域内部像素之间的关系。
其中 表示第i个同质区域,
属于位置编码嵌入。
3.2.1.4 Global Aggregation Context(GAC)
因为RAC获取的是同质区域内的像素之间的关系,因此在GAC中我们获取不同质区域之间的联系。
① 首先根据上面生成的同质区域,我们计算同质区域的聚类中心。
② 然后根据上面计算得到的聚类中心组成的集合进行编码。
③ 最后根据RAC的编码器输出和GAC的编码器输出共同放入解码器中得到GAC全局聚合上下文特征。
3.2.2 损失函数
除了最终预测的损失,作者还定义了一个辅助损失(骨干网络的第三阶段的输出损失),权重设置为0.4。
其中两个损失函数都采用交叉熵损失函数计算损失:
其中 是对应的预测矩阵,表示图像中每个像素对应每个类别的概率,取值范围为(0,1)。
是one-hot编码,表示图像中每个像素对应的其最大概率的所属类别数值为1,对应其他类别的数值为0。
3.2.3 投票预测
作者采用投票机制,探讨了两种方案,即“硬投票”和“软投票”。利用不同的结果,提高准确率。
① 硬投票
采用“少数服从多数”的原则: ,计算生成的M张三光谱图像中(i,j)位置上属于哪个类别。
其中 ,取值范围为
。
② 软投票
采用的是计算每个像素所属类别的概率: ,计算生成的M张三光谱图像中(i,j)位置上所属类别的概率。
以上就是我对本片论文的理解,如有不当,欢迎指正!!