【arXiv2309】RingMo-lite: A Remote Sensing Multi-taskLightweight Network with CNN-TransformerHybrid Fr

m0_61899108

已于 2023-10-04 15:05:25 修改

阅读量2.7k

点赞数 1

分类专栏：论文笔记 Transformer系列文章标签：人工智能深度学习 transformer

于 2023-10-04 15:03:31 首次发布

本文链接：https://blog.csdn.net/m0_61899108/article/details/133550980

版权

论文笔记同时被 2 个专栏收录

147 篇文章 59 订阅

订阅专栏

Transformer系列

34 篇文章 5 订阅

订阅专栏

RingMo-lite: A Remote Sensing Multi-task Lightweight Network with CNN-Transformer Hybrid Framework, arXiv 2309

论文：https://arxiv.org/abs/2309.09003

代码：暂未开源

MindSpore/RingMo-Framework

摘要

近年来，RingMo的遥感（RS）视觉基础模型在各种下游任务中取得了优异的性能。然而，对计算资源的高需求限制了这些模型在边缘设备上的应用。有必要设计一个更轻量级的基础模型来支持在轨遥感图像解释。现有方法在实现轻量级解决方案的同时在RS图像解释中保持通用性方面面临挑战。这是由于RS图像中复杂的高频和低频频谱分量，使得传统的单一CNN或视觉变换器方法不适合该任务。
因此，本文提出了RingMo-lite，一个具有CNN-Transformer混合框架的RS多任务轻量级网络，它有效地利用了RS的频域特性来优化解释过程。它由Transformer模块作为低通滤波器，通过双分支结构提取RS图像的全局特征，CNN模块作为堆叠高通滤波器，有效提取细粒度细节。此外，在预训练阶段，所设计的频域掩模图像建模（FD-MIM）结合了每个图像块的高频和低频特性，有效地捕捉了RS数据中的潜在特征表示。

如图所示，与RingMo相比，所提出的RingMo-lite在各种RS图像解释任务中降低了60%以上的参数，在大多数场景中平均精度下降不到2%，与类似大小的模型相比实现了SOTA性能。

引言

动机

RingMo遥感大模型的出现，有效解决了现有方法泛化能力不足的问题。然对计算和存储资源有较大的需求，不够灵活，难以应用于边缘服务器或终端。本文旨在设计一个轻量级的基础模型。

通用视觉处理领域，轻量级视觉基础模型的方法有三类：

知识蒸馏 knowledge distillation，迁移学习，但需要额外的教师模型。
神经架构搜索 neural architecture seatch，NAS，自动搜索合适的网络结构，但需要大量计算资源和处理时间。
网络结构设计 network structure design，看个人设计，能取得效果，计算量也不大。

不同RS场景中特定目标区域和大规模场景区域之间的频域比较示例。第二行中的3D频域图是基于频谱分量计算的，其中越靠近中心表示低频部分，越靠近外围表示高频部分。第三行和第四行分别是高通滤波器和低通滤波器之后的图像的结果。

RS领域存在两个挑战：

遥感图像具有不同的分辨率和方位范围，物体的分布复杂。因此，遥感图像通常同时包含特定的目标区域和大规模的地面物体，它们之间存在许多尺度差异。密集的小物体的像素在空间维度上变化剧烈，而大型地面物体的像素变化相对更均匀、更缓慢。这些对象的多尺度差异给模型的泛化能力带来了巨大挑战。
其次，各种遥感解释任务倾向于关注不同的目标区域。例如，场景分类任务涉及广泛的空间尺度，因此需要更多地关注全局通用化信息。然而，在RS目标检测的下游任务中，有必要更多地关注飞机、船舶和车辆等目标的局部细节信息。RS图像中关键对象的像素变化在频率域上具有相应的表示，不同频率指的是特征变化的强度。高频和低频信息的这些差异在一定程度上影响了不同下游任务的解释准确性。

尽管许多网络结构设计方法采用了CNN和Transformer的组合，但它们主要集中在使用CNN来替换Transformer块的部分，以减少计算。现有的大多数方法都没有注意到使用CNN和Transformer从RS图像中提取高频和低频信息的优点。

综上，本文提出了一种适用于各种遥感图像解译任务的新型轻量基础模型RingMo-lite。首先，为了充分提取特定目标区域的细节特征和大规模场景的全局特征，本文设计了一种轻量级的CNN-Transformer双分支混合架构。具体而言，

Transformer结构通过自我注意机制建立了全局关系和远距离依赖，从而能够更深入理解图像的结构和语义方面。因此，在输入图像的频域中，Transformer可以被视为提取低频信息的低通滤波器，可以更好地提取大规模表面特征元素的信息。
CNN架构通过矩阵计算来关注卷积滑动窗口中的局部细节。因此，CNN分支旨在进一步缓解空间位置偏差，捕捉纹理和细节等局部特征。在频域中，CNN可以被视为多个高通滤波器的叠加适用于提取高频信息和处理特定目标信息。

结合CNN和Transformer两种不同结构的优点，所提出的双分支块在通道维度上解耦了混合结构，综合利用了RS图像中的高频和低频信息，有效地提高了解释精度。

其次，本文设计了一种适用于RS图像高频和低频信息的频域掩蔽图像建模（FD-MIM），通过结合自监督学习提高了轻量级基础模型的预训练效果。FD-MIM对应于所提出的CNN Transformer混合帧工作，有助于在掩蔽期间更好地重建图像细节，并促进所提出的轻量级模型学习适合不同下游任务的丰富特征表示。

贡献

为了实现轻量化的在轨解译，本文提出了RingMo-lite，这是一种适用于各种RS图像解译任务的双分支CNN-Transformer混合框架。该方法充分考虑了遥感图像和任务的高频和低频信息，有效地提高了解释精度。
考虑到RS对象区域的频域特性，本文设计了一种FD-MIM自监督预训练策略，该策略有助于所提出的框架学习更丰富的特征表示，并有效地提高了下游任务的泛化能力。
与RingMo相比，RingMo-lite在各种RS图像解释任务中的参数减少了60%以上，平均精度下降了不到2%，并且与相同规模的模型相比，Ring Mo lite可以在四个下游任务中实现SOTA性能，包括RS图像分类、目标检测、语义分割和变化检测。

方法 RingMo

RingMo网络框架

如图所示，输入图像最初使用patch partition被分割成不重叠的patch(大小为4×4)，并被视为token。把这些patch堆叠，输入线性嵌入层。通过四个stage处理获得图像表示。每个stage包括不同数量的高低频信息融合块(FIFB)，具体数量取决于Swin Tiny的(2,2,6,2)配置。
在各个阶段之间引入了补丁合并层(Patch Merging)，以抵消token数量的减少。在每个FIFB中，都有一个细分为低频（L-F）分支和高频（H-F）分支。为了优化利用CNNs和Transformers的特征提取能力，FIFB的输入特征被分别发送到两个分支，以捕获低频信息和高频信息，然后融合并馈送到下一个块或补丁合并层。

L-F分支遵循Swin Transformer的主要结构，并获得全局特征。
H-F分支机构进一步把输入特征划分为两部分，并使用CNN提取细节特征。

网络细节

High-Low Frequency Information Fusion Block (FIFB)

重新审视ViT和CNN：ViT利用多头自注意在非重叠token之间进行信息交换。作为一种低通滤波器，MSA擅长建模长依赖性和捕获低频信息。然而，MSA在特征图上的空间平滑操作往往会衰减高频信号，导致由低频信息主导的特征表示。相反，CNN在感受野内使用局部卷积（Convs）来获得局部信息。与MSA相反，Convs是高通滤波器，可以有效地提取图像的高频表示。因此，MSA和Convs表现出互补的特点，MSA在捕捉全局依赖和低频信息，而Conv擅长保存局部细节和高频信息。

遥感任务中的频率特征：通常，场景和对象的全局结构在图像中传递低频信息，而边缘和纹理等局部空间细节表现为高频信息。遥感图像固有地包含小目标和广泛的地理特征。密集分布的小尺度目标的像素在空间上变化很大，而大尺度特征相对均匀且缓慢。对于RS图像解释任务，场景分类强调提取全面的全局信息，而目标检测任务则侧重于捕捉细节。此外，更细粒度的任务需要更多的本地细节。基于这些考虑，论文提出了FIFB，它结合了高频和低频信息，从而提高了模型对RS图像的多任务泛化能力。

FIFB：如图4所示，FIFB的输入特征 $F \in R^{N*N*C}$ 被分别馈送到两个不同的分支：L-F分支和H-F分支。L-F分支基于Swin Transformer的架构，以捕获长距离的广泛依赖关系。

H-F分支将输入特征划分为两个分区： $F_1 \in R^{N*N*C/2}$ 和 $F_2 \in R^{N*N*C/2}$ ，以提取高频信息，分别利用最大滤波器的敏锐灵敏度和Convs的细节感知。后拼接F1和F2生成了具有丰富高频信息的综合特征图H。

FIFB过程的输出为低频特征L和高频特征H的融合：

Frequency Domain Masked Image Modeling

设计一种同时捕获局部和全局图像特征的预训练策略以提高模型的效率和泛化能力是一种常见的做法。一种有前途的方法是使用掩码技术来强调图像中的特定特征。掩模图像建模(MIM)可以结合固有的数据关系，引导模型更好地理解复杂的RS图像。通过利用输入图像的结构和相邻像素之间的相关性，它使模型能够在没有明确标记的情况下学习有意义的表示。

许多MIM方法通常采用随机掩膜策略。选择一定比例的图像补丁，并对其进行掩码补全。RS图像具有独特的成像机制，包含更复杂的背景和许多较小尺度的物体，这限制了RS图像解释中的许多随机掩蔽策略。在此背景下，论文引入了高频和低频域掩蔽图像建模（FD-MIM）的概念。FD-MIM对应于所提出的CNNTransformer混合框架。所提出的方法可以提取掩蔽图像的潜在表示，并使用它们来重建掩蔽区域的原始信号。通过在复杂的RS图像中适当地保留高频和低频域信息，它有助于在掩蔽的同时更好地重建图像的细节。学习的编码器适用于各种光学RS下游任务，L1回归损失用于计算重建结果和像素之间的差异。

首先，FD-MIM从数据集中的每个RS图像中随机选择50%的图像块。对这些块进行频域分析，使用离散傅立叶变换（DFT）。所选择的块被分类为高频或低频类别。这种分类取决于比较每个补丁内高频内容像素与低频内容像素的比例。高频含量比例较高的斑块被指定为高频斑块，而以低频含量为主的斑块被归类为低频斑块。
为了进一步强调地层中的高频和低频，论文分别对这些分类斑块进行高通和低通滤波。前者增强了高频部分的独特特性，而后者滤波有助于保留重要的低频信息。该步骤有助于更好地分离频率分量，同时保持关键频域特性。
最后，为了增强模型的鲁棒性和泛化能力，论文引入了随机像素掩蔽，包括从频率分离的补丁中随机选择像素并应用掩蔽操作。这种策略增加了训练过程中重建图像的复杂性，有助于模型专注于学习最相关和最具鉴别力的特征。

实验

RS场景分类

RS目标检测

RS语义分割

RS变化检测

RingMo和RingMo-lite比较

m0_61899108

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【arXiv2309】RingMo-lite: A Remote Sensing Multi-taskLightweight Network with CNN-TransformerHybrid Fr

近年来，RingMo的遥感（RS）视觉基础模型在各种下游任务中取得了优异的性能。然而，对计算资源的高需求限制了这些模型在边缘设备上的应用。有必要设计一个更轻量级的基础模型来支持在轨遥感图像解释。现有方法在实现轻量级解决方案的同时在RS图像解释中保持通用性方面面临挑战。这是由于RS图像中复杂的高频和低频频谱分量，使得传统的单一CNN或视觉变换器方法不适合该任务。因此，本文提出了RingMo-lite，一个具有CNN-Transformer混合框架的RS多任务轻量级网络，它有效地利用了RS的频域特性。
复制链接

扫一扫

专栏目录