Deformable CNN 和 Deformable Attention

论文地址:Deformable Convolutional Networks

针对视觉任务中,如何根据物体的尺寸、位置、视角等来调整模型的几何变化,一般传统做法有:

1)通过数据增强等方式,增加训练数据的多样性

2)使用transformation-invariant的特征和算法,比如TI-pooling (transformation-invariant pooling)和SIFT(scale invariant feature transform)

但这些方法有一些缺点:比如

1)需要假设几何变形是固定和已知的,然后才能根据先验知识设计数据增强的方法或者transformation-invariant的算法,这样如果存在未知的形变就无法处理

2)如果几何变形比较复杂,设计难度较大

同时,CNN虽然有一定的抗形变的能力,但依然无法有效处理复杂未知的形变,这是由于卷积核采用了固定的结构,固定的位置,pooling采用固定的比列进行压缩等

可变形卷积(Deformable CNN)

对于3x3卷积核,领域为R={(-1,-1),(-1,0),...,(0,1),(1,1)},权重W。

对于输出特征图中的每个位置p0,其卷积后的结果为

图片2.jpg

Deformable CNN中,R可以通过偏置 {Δpn | n=1,...,N} ,N=|R| 变形,则上式可变形为:

图片3.jpg

图片5.jpg

可变形Attention(Deformable Attention) 

传统 Attention公式如下:

Deformable Attention对 k / v 做了改变,其值基于位置改变后的插值: 

 Φ函数就是双线性插值操作, Δp 就是基于 q 学出来的每个位置偏差。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值