C2 CapsViT：用于遥感图像场景分类的跨上下文和跨尺度胶囊视觉变换器-CSDN博客

1、原文

C2-CapsViT: Cross-Context and Cross-Scale Capsule Vision Transformers for Remote Sensing Image Scene Classification.

https://ieeexplore.ieee.org/document/9803211

2、摘要

准确解释图像内容在许多地球观测任务中起着至关重要的作用。这封信构建了一种新颖的跨上下文和跨尺度胶囊视觉转换器（C2-CapsViT）架构，用于遥感图像场景分类。首先，采用多上下文补丁嵌入策略，大大提高了令牌表示质量，以编码不同上下文的特征语义。其次，采用多尺度变换器块设计，同时利用不同粒度的远程全局特征交互和不同类型的特征自注意力来提高特征编码质量。此外，通过结合卷积和变换器结构，局部和全局特征语义被有效地融合以指导准确的预测。C2-CapsViT在三个场景分类数据集上进行了精心验证。定量评估和比较分析都证明了它的竞争能力和先进的性能。

3、正文

-----------------------------------------------------------------------------------

-----------------------------------------------------------------------------

----------------------------------------------------------------------------

-------------------------------------------------------------------------------------

4、结论

这封信建立了一个混合胶囊网络架构，称为C2-CapsViT，用于对遥感图像场景进行分类。通过采用跨上下文补丁嵌入方案，嵌入令牌的质量得到显着提升，以访问不同上下文的特征。通过设计一个高级CapFormer模块，可以同时利用跨尺度全局特征交互，并有效地解释空间令牌相关性和通道特征相互依赖性。此外，通过结合卷积结构的局部特征提取能力和变压器结构的远程特征自注意力能力，C2-CapsViT可以提供强大的特征语义来指导准确的预测。C2-CapsViT已在三个场景分类数据集上进行了精心验证。定量评估和比较分析证实了C2-CapsViT的实际可行性和竞争优势。