一、提出的背景
现有的融合方法侧重于学习全局和局部的特征,很少考虑建模的语义信息。可能到导致不充分的源信息保存。
二、提出的结构
卷积神经网络模块提取局部特征。transformer学习长距离依赖,两个基于transformer架构的语义建模模块来管理高层语义信息。语义建模模块将源图像的浅层特征映射为深层语义,语义建模模块学习不同感受野的深层语义信息。最后结合局部特征、长程依赖和语义特征恢复融合结果。
三、transform
transformer由于具有长期依赖学习的能力,在图像融合中也显示出了其优越性。
(1)Vibashan等人[29]形成了一个用于图像融合的Spatio-Transformer框架,通过基于Transformer子网络和CNN子网络建立的网络来提取长程依赖和局部信息。
(2)Li等人[18]设计了一个融合框架,通过卷积引导的Transformer网络将联合收割机本地和远程依赖特征结合起来。
(3)Ma等人[30]设计了一种融合网络,该网络建立在跨域远程学习和Swin Transformer基础上.
(4)Chang等人采用Transformer对多模态图像的关系进行建模,并探索跨模态交互[31]。