多模态+遥感图像分类
Transformer-based Multi-Modal Learning for Multi Label Remote Sensing
Image Classification
论文作者:David Hoffmann,Kai Norman Clasen,Begüm Demir
作者单位:Technische Universität Berlin; BIFOLD
论文链接:http://arxiv.org/abs/2306.01523v1
项目链接:https://git.tu-berlin.de/rsim/sct-fusion
内容简介:
1)方向:遥感图像分类
2)应用:遥感图像分类
3)背景:在远程感知图像的多模态多标签分类中,以往的研究大多集中在单模态架构和早期融合的多模态架构上。然而,这种架构在处理不同模态之间的信息交换方面存在一定的限制。
4)方法:本文提出一种新的Synchronized Class Token Fusion (SCT Fusion)架构,通过利用模态特定的基于注意力机制的Transformer编码器来处理不同的输入模态,并在每个Transformer编码器块之后通过同步特殊类令牌进行模态间的信息交换。同步过程涉及使用可训练的融合变换将类令牌融合在一起,得到一个包含来自所有模态的信息的同步类令牌。由于融合变换是可训练的,它可以准确地表示不同模态之间的共享特征。
5)结果:实验结果表明,与单模态架构和早期融合多模态架构相比,所提出的架构在多模态多标签分类数据集上的表现更为有效。所提出的架构的代码公开可用。
源码学习见专栏置顶~