没有代码
整体框架就是改进了RFN-Nest中间的融合模块,把当年对ViT的一个新改进的方法拿来用了。
使用了很多损失,但个人觉得损失的权重系数的计算不是很好。
1、Motivation
- 现有的融合策略太简单没有利用特征信息
- 基于CNN的方法仅考虑到了局部,没有考虑到全局上下文信息。
- 端到端的方法缺少明显的特征提取步骤。
本文贡献为:
- 引进了聚焦自注意力(focal self-attention,就是一个对transformer的改进,作者拿过来用了)
- 有效地利用多模态特征,设计了一个自适应的融合策略,该策略是根据特征提取器不同层不同的特征设计的。
- 实验表明我们的方法大多数sota要好。
二、网络结构
每个EB,由两个卷积层和一个ReLU和maxpooling。
中间的融合层: