CMLFormer

最新推荐文章于 2025-05-14 17:50:45 发布

309摸鱼巨人

最新推荐文章于 2025-05-14 17:50:45 发布

阅读量709

点赞数 7

分类专栏：论文阅读100篇文章标签： transformer 论文阅读图像处理

本文链接：https://blog.csdn.net/MagicFromMe/article/details/146401272

版权

论文阅读100篇专栏收录该内容

8 篇文章

订阅专栏

CMLFormer: CNN and Multiscale Local-Context Transformer Network for Remote Sensing Images Semantic Segmentation
CMLFormer:CNN和多尺度局部上下文变换网络用于遥感图像语义分割
论文地址
 代码地址
这篇论文是一篇OA的，但是里面有些知识点是我不了解的，所以还是吧这篇论文看了。

1. 介绍

本文提出了一种CMLFormer网络架构，该架构在编解码结构中结合轻量级CNN和多尺度局部上下文Transformer，通过较低的计算开销有效融合遥感图像分割中的全局与局部信息。
设计了一种高效灵活的多尺度局部上下文Transformer模块（MLTB），通过结合非重叠块自注意力机制与多尺度策略，以低计算复杂度建立像素间的长程依赖关系，从而捕捉遥感图像的全局上下文信息。
提出特征增强模块（FEM）以缓解遥感图像分割中长程依赖建模过程中局部上下文细节的丢失问题。
本文其余部分组织如下：第二节分析相关研究工作，第三节阐述本文研究方法，第四节通过实验对比与消融实验验证所提模型的鲁棒性，最后第五节总结全文。

2. 网络结构

请添加图片描述
上面是该网络的模型图，在编码器阶段，使用了轻量级的 ResNet-18网络架构以低复杂度提取图像特征，ResNet-18 包含四个 ResBlock 阶段进行下采样。在解码器阶段，作者引入了MLTB模块，该模块包含LMSA和MSC两个模块，LMSA主要使用了transformer来构建全局关系，MSC模块通过条纹卷积来进行特征增强，接着会将解码后的特征图和对应编码阶段的语义信息传递给一个FEM模块，这个模块主要是聚合空间和通道特征，最后将前三次解码信息进行一个求和，最后在进行解码，得到最后的分割图，以上便是整体的一个流程。

2.1 Multiscale Local-Context Transformer Block

请添加图片描述
上面是MLTB包含的两个模块图，对于LMSA模块来说，就是一个简单是自注意力机制，这里的Window Partition操作将输入特征图分割成若干个不重叠的小窗口。每个窗口内的特征独立进行处理（如自注意力计算），而不是在整个全局特征图上进行操作。这样做的好处就是可以显著减少计算量，因为注意力机制的计算复杂度与输入特征图的大小呈平方关系。通过限制注意力范围到局部窗口内，复杂度得以大幅降低。在SwinTransformer中，窗口划分和移位窗口的设计是为了在局部窗口内计算自注意力，同时通过移位操作建立窗口间的长距离依赖关系。在 CMLFormer 中，Window Partition 主要用于 LMSA 模块，而长距离依赖关系则通过 MSC（Multiscale Stripe Convolution）模块补充。最后得到的特征图进行深度可分离。在MSC模块，这里使用了条纹卷积，下面现在说一说条纹卷积：

参考A statistical approach for neural network pruning with application to internet of things ，这篇论文中详细介绍了条纹卷积。
在介绍这个之前我们先来了解一下滤波器，滤波器和卷积核是有区别的，滤波器可以看作是一个卷积核的集合，但是有不仅仅包含卷积和，还有偏置等操作，所以尚且我们先将滤波器理解为卷积核集合。首先我们来看一组标准的卷积操作，如下图：
现在这里有N个滤波器，每个滤波器与特征图今天卷积，得到卷积之后的特征图，过程类似下面这张图：
这是一个filter（滤波器）的计算过程（这里使用的是卷积核大小为3*3），他会将每个通道对应位置进行相加，最后得到了卷积操作之后的特征图。论文中说了有N个滤波器，也就是说有N个这样的操作。接着我们来看条纹卷积过程，下面是条纹卷积的图示：
我们可以清楚的看到，这里的卷积核是9 * 1的，类比标准的卷积，他这里是将一个3 * 3的卷积展平了，然后用展平后的卷积核与特征图进行卷积，卷积的计算方式和正常的卷积是一样的，条纹卷积将卷积核的空间维度分解为多个条纹，每个条纹独立计算局部响应，再通过求和合并结果。

在MSC中，分别运用了垂直和水平方向的条纹卷积，最后将结果进行合并，MSC的结构其实很简单，知识这里的条纹卷积我不太清楚。

深度可分离卷积：

深度卷积：对每个输入通道单独进行卷积，不跨通道计算。
逐点卷积：使用 1×1 卷积核组合不同通道的特征，生成输出通道。

分解为通道维度（深度卷积）和跨通道组合（逐点卷积）。

2.2 Feature Enhanced Module

请添加图片描述
FEM分为两个分支，第一个分支通过求和操作获取空间特征，第二个分支通过连接操作获取通道特征。在第一个分支中，来自编码器阶段的局部上下文信息在空间维度上被添加到MLTB阶段的全局信息中。然后，将Sigmoid激活特征添加到像素级别的最大池化特征中。紧接着，使用3×3卷积来增强重要的上下文信息并丢弃无关特征。在另一个分支中，来自编码器阶段的局部上下文信息与MLTB阶段的全局信息在通道维度上连接，并使用3×3卷积来增强特征表示。然后，使用加法操作聚合增强的空间特征和增强的通道特征。
上面是FEM的结构，接下来会将解码器前三个阶段的输出特征进行求和。以上便是整个网络结构。