基于CNN和transformer,空间和通道注意力。
对比了两个基于transformer的方法,SwinFusion(通用融合框架)和一个2022年还没中稿的arxiv的一片PPTFusion。
代码公开,实验丰富。
根据主观图结合作者的分析,尝试思考其他方法的缺陷是什么原因?
1、Motivation
现有深度融合模型的关键部分是卷积运算,卷积运算擅长捕捉局部特征,但不能表示源图像的长期依赖关系,导致一些重要的全局上下文信息提取不足。
互补信息利用是影响融合性能的关键因素,信息丢失是灾难性的
设计一个end-to-end,想利用transformer的长距离建模优势。
2、网络结构
设计了一个DARM块和TRM块
DARM就是综合使用了空间注意力和通道注意力提取特征,TRM就是使用的SwinTransformer的思想。然后对排列顺序做了消融实验,结果显示当前的D-T-T-D是效果最好的。
作者的解释是说,第一个DARM,关注重要的特征,第二个最后用来获取高级语义特征。