一、摘要
基于cnn的方法通过融合局部特征来进行图像融合。但是,它们不考虑映像中存在的远程依赖关系。基于变压器模型(transformer)借助自关注机制对远程依赖关系进行建模。
采用两阶段训练方法:(1)训练一个自编码器在多个尺度上提取深度特征
(2)使用ST融合策略融合多尺度特征:ST融合块由CNN和变压器分支组成,分别捕获本地和远程特征。将本地特征与远程依赖关系集成可以添加全局上下文信息。
本文主要贡献:
(2)提出融合变压器方法,利用局部信息和模型远程依赖关系克服当前图像融合工作中存在的全局上下文的理解
(1)采用新颖的空间变换融合策略。
二、相关工作
(1)IFT由三部分组成:编码器网络、SpatioTransformer (ST)融合网络和嵌套解码器网络
(2)总体框架
ST融合网络由空间支路和变压器支路组成。空间分支由卷积层和瓶颈层组成,用于捕获局部特征。变压器分支由一个基于轴向注意力的变压器块组成,用于捕获远程依赖关系(或全局上下文)。
(3)自我注意和轴向注意
自我注意:计算力复杂(查询、键、值)
轴向注意:现在高度轴上进行自注意,然后在宽度上进行。。。
沿着高度轴的自注意力:
(4)空间-变形融合策略(ST)
空间分支+变压器分支
(5)损失函数