Scale-Aware Trident Networks for Object Detection 论文笔记

前言

为了解决目标检测中的尺度变换问题,目前人们已经提出了如下方法:
在这里插入图片描述

  • (a):图像金字塔,虽然对目标的表征能力很强,但由于每种尺度的图像都要经过一个CNN,因此效率很低;
  • (b):特征金字塔,虽然能够生成多尺度特征,计算消耗相对于图像金字塔来说更少,但由于不同尺度的目标被分配到不同层级的特征图上,导致参数不一致;
  • (c):就是本文提出的三叉戟网络(Trident Network)。

图像金字塔和特征金字塔的共同特点是,模型对于不同尺度的目标应该有不同的感受野。基于此,本文提出Trident Network,首先利用trident block(上图c中的黄色部分,有三个分支)生成不同尺度的特征图,trident block使用的是空洞卷积(dilated convolution),这样可以使不同的分支拥有相同的网络结构,并且共享相同的参数,而同时每个分支的感受野是不同的。为了避免有过大或过小的目标参与到训练中,还提出了scale-aware训练策略,确保分配给每个分支的目标的尺度大小与该分支的感受野大小是相匹配的。由于整个多分支网络的权重是共享的,因此在inference时可以将整个Trident Network近似成为只有一个主要分支的网络,这样做使得inference不会引入额外的参数和计算消耗。

本文的主要贡献为:

  • 研究了在目标检测中,感受野对不同尺度大小的目标的影响;
  • 提出Trident Network以解决尺度变化问题,它生成的不同尺度的特征图的表征能力都是相同的;
  • 提出TridentNet Fast,通过trident-block中权重共享的设计,在inference时只保留一个主要分支;
  • 使用ResNet-101作为backbone,在COCO数据上达到48.4的mAP。

对感受野的研究

为了研究感受野对检测不同大小目标的影响,本文将backbone中的一些卷积层替换为空洞卷积,使用不同的dilation rate来控制感受野的大小。

在空洞卷积中有一个超参数dilation rate d s d_s ds,表示在filter之间插入 d s − 1 d_s-1 ds1个0,这样做可以扩大kernel的大小,同时不会带来额外的参数和计算消耗。如下图所示,(a)是一个 3 × 3 3 \times 3 3×3的kernel,它的 d s d_s ds就是1;&

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值