P2FEViT: Plug-and-Play CNN Feature Embedded Hybrid Vision Transformer for Remote Sensing Image Class

P2FEViT是一种结合CNN和ViT的混合架构,用于提升遥感图像分类能力。通过CNN特征嵌入,模型能同时捕捉全局上下文和局部信息,减少对大规模预训练数据的依赖,改善ViT的收敛速度和分类性能。实验结果显示,P2FEViT在RSIC任务上表现出色。
摘要由CSDN通过智能技术生成

论文地址:链接: link

遥感图像分类(RSIC)是遥感图像智能解译中的一项经典且基础的任务,它可以为每幅获取的遥感图像提供独特的标记信息。 得益于多头自注意力(MSA)机制强大的全局上下文信息提取能力,基于视觉变换器(ViT)的架构在自然场景图像分类方面表现出了出色的能力。 然而,为了实现强大的RSIC性能,仅捕获全局空间信息是不够的。 具体来说,对于具有高类间相似度的细粒度目标识别任务,具有区分性和有效的局部特征表示是正确分类的关键。 此外,由于缺乏归纳偏差,ViT强大的全局空间上下文表示能力需要冗长的训练过程和大规模的预训练数据量。 为了解决上述问题,提出了一种卷积神经网络(CNN)和ViT的混合架构来提高RSIC能力,称为𝑃2
FEViT,它将即插即用的 CNN 功能与 ViT 集成在一起。 本文首先分析了CNN和ViT应用于RSIC的特征表示能力。 其次,旨在整合CNN和ViT的优点,提出了一种将CNN特征嵌入到ViT架构中的新方法,可以使模型同步捕获和融合全局上下文和局部多模态信息,进一步提高ViT的分类能力。 第三,基于混合结构,仅采用简单的交叉熵损失进行模型训练。 该模型还可以用比原始 ViT 相对较少的训练数据实现快速、舒适的收敛。 最后,在NWPU-RESISC45(NWPU-R45)的公共遥感场景分类数据集(NWPU-R45)和自建的细粒度目标分类数据集BIT-AFGR50上进行了广泛的实验。 实验结果表明,所提出的𝑃2
FEViT可以有效提高特征描述能力并获得出色的图像分类性能ÿ

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值