Learning Spatial Fusion for Single-Shot Object Detection论文解读

Learning Spatial Fusion for Single-Shot Object Detection

(1)目的:不同特征尺度之间的不一致性是基于特征金字塔的单阶段检测的主要缺陷。
(2)改进点:提出了新的金字塔特征融合策略,称为自适应空间特征融合(ASFF),通过学习权重参数的方式将不同层的特征融合到一起。
(3)网络结构
论文中的做法是自适应学习不同尺度上特征融合时的空间权重,主要包括两部分:调节尺寸和自适应融合。
在这里插入图片描述1.Feature Resizing
以上三个level,在i层level上将其他level调整为与i相同大小:
上采样:1×1卷积通道压缩,然后使用插值来提高分辨率。
1/2比例的下采样,使用一个3×3卷积(步长为2)来同时修改通道数和分辨率。1/4比例,在2步卷积之前添加了一个2步最大池化层。
2.Adaptive Fusion
以ASFF-3为例,图中的绿色框描述了如何将特征进行融合,其中X1,X2,X3分别为来自level,level2,level3的特征,与为来自不同层的特征乘上权重参数α3,β3和γ3并相加,就能得到新的融合特征ASFF-3,如下面公式所示:

在这里插入图片描述
对于权重参数α,β和γ,则是通过resize后的level1~level3的特征图经过1×1的卷积得到的。并且参数α,β和γ经过concat之后通过softmax使得他们的范围都在[0,1]内并且和为1:
在这里插入图片描述
(4)结果可视化
在这里插入图片描述
可视化结果进一步解释了ASFF的有效性,比如对于第一个斑马的图,可以看到其实最终斑马是在level1这个feature上被检测到的(明显标红),并且观察level1这一层的α,β和γ权重可以发现,对于图中斑马这种大物体,更容易被高层的特征捕捉到,因为对于大物体更需要语义特征。
而对于第二个羊群图来说,可以看到羊更多的是被level2和level3检测到,这也说明了对于小物体,我们更需要底层特征中的细粒度特征来辨别。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值