P2FEViT: Plug-and-Play CNN Feature Embedded Hybrid Vision Transformer for Remote Sensing Image Class

朝朝暮暮Quake

已于 2024-04-29 10:38:25 修改

阅读量415

点赞数 4

文章标签： transformer 目标检测

于 2024-04-17 14:52:15 首次发布

本文链接：https://blog.csdn.net/qq_43578042/article/details/137871739

版权

P2FEViT是一种结合CNN和ViT的混合架构，用于提升遥感图像分类能力。通过CNN特征嵌入，模型能同时捕捉全局上下文和局部信息，减少对大规模预训练数据的依赖，改善ViT的收敛速度和分类性能。实验结果显示，P2FEViT在RSIC任务上表现出色。

摘要由CSDN通过智能技术生成

论文地址：链接: link

遥感图像分类（RSIC）是遥感图像智能解译中的一项经典且基础的任务，它可以为每幅获取的遥感图像提供独特的标记信息。得益于多头自注意力（MSA）机制强大的全局上下文信息提取能力，基于视觉变换器（ViT）的架构在自然场景图像分类方面表现出了出色的能力。然而，为了实现强大的RSIC性能，仅捕获全局空间信息是不够的。具体来说，对于具有高类间相似度的细粒度目标识别任务，具有区分性和有效的局部特征表示是正确分类的关键。此外，由于缺乏归纳偏差，ViT强大的全局空间上下文表示能力需要冗长的训练过程和大规模的预训练数据量。为了解决上述问题，提出了一种卷积神经网络（CNN）和ViT的混合架构来提高RSIC能力，称为𝑃2
FEViT，它将即插即用的 CNN 功能与 ViT 集成在一起。本文首先分析了CNN和ViT应用于RSIC的特征表示能力。其次，旨在整合CNN和ViT的优点，提出了一种将CNN特征嵌入到ViT架构中的新方法，可以使模型同步捕获和融合全局上下文和局部多模态信息，进一步提高ViT的分类能力。第三，基于混合结构，仅采用简单的交叉熵损失进行模型训练。该模型还可以用比原始 ViT 相对较少的训练数据实现快速、舒适的收敛。最后，在NWPU-RESISC45（NWPU-R45）的公共遥感场景分类数据集（NWPU-R45）和自建的细粒度目标分类数据集BIT-AFGR50上进行了广泛的实验。实验结果表明，所提出的𝑃2
FEViT可以有效提高特征描述能力并获得出色的图像分类性能ÿ

最低0.47元/天解锁文章

朝朝暮暮Quake

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
P2FEViT: Plug-and-Play CNN Feature Embedded Hybrid Vision Transformer for Remote Sensing Image Class

设计目标如下：首先，cls_token源自CNN提取的特征，它描述了输入图像的整体特征，而不是某个patch对应的特征，因此不会导致对特定区域的过度学习倾向。回顾 ViT 和 CNN 模型在自然场景图像分类数据集 ImageNet [6] 上的性能，我们发现，如果没有在较大的数据集上进行预训练，ViT 模型往往具有较差的分类性能。其次，旨在整合CNN和ViT的优点，提出了一种将CNN特征嵌入到ViT架构中的新方法，可以使模型同步捕获和融合全局上下文和局部多模态信息，进一步提高ViT的分类能力。
复制链接

扫一扫