Transformer系列:Detection--> Deformable DETR (ICLR2021)

 

文章地址:https://arxiv.org/pdf/2010.04159.pdf。首先介绍文章的内容,后面附上自己的一些疑惑和思考,欢迎讨论。

 

1. Motivation

DETR 减少了目标检测中手工设计的过程(如anchor生成, NMS后处理,rule-based training target assignment),但它有两个缺点:

    1)收敛慢,比如在COCO上收敛需要500 epoch,比Faster RCNN慢了10到20倍;attention module在初始化时对每个pixel的attention weight是均匀分布的,因此需要较长时间使它学习去关注有意义的位置。

    2)小目标检测能力相对较弱。高分辨率的特征有利于小目标的检测,然而高分辨率特征的attention weight计算复杂度高,是pixel数量的平方O(H^{2} W^{2} C)

Deformable conv是处理稀疏位置的一种有效机制。文章提出一种deformable attention module,只关注所有pixel中有着突出关键作用的一小部分sampling pixel。这个module也可以拓展到融合多尺度特征上,从而增强小目标检测能力。

除此之外,文章还提出了iterative bounding box refinement,并尝试two-stage方式进一步提高检测能力。

 

2. Method

Deformable DETR用它提出的(multi-scale)deformable attention module替代原始Transformer中的attention module,网络结构如下图。我们首先介绍deformable attention module。

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值