- paper:《ScarfNet: Multi-scale Features with Deeply Fused and Redistributed Semantics
for Enhanced Object Detection》 - arxiv: https://arxiv.org/abs/1908.00328
- github: 暂时没找到
简介
首先paper提出bottom-level特征限制目标检测性能,提出2点来解决问题:
- 使用双向LSTM融合上下文多尺度特征
- channel-wise 注意力模型重分配每个尺度的特征
模型
ScarfNet结构网络结构,主体结构借鉴RetinaNet中的FPN,关键是加入尺度结合网络ScNet和注意力重分配网络ArNet。
ScNet:利用双向LSTM融合四个不同尺度分支的特征,这样做将手工的特征连接编程基于权重自动学习重要特征来融合。
ArNet:注意力模型与其他注意力模型没有什么本质区别,都是通过全局平均池化GAP实现自注意力,然后再旁路连