Deformable CNN 和 Deformable Attention

jzwei023

已于 2022-02-17 15:14:00 修改

阅读量4.8k

点赞数

分类专栏：图像机器学习文章标签： cnn 人工智能神经网络

于 2022-02-17 15:12:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jzwei023/article/details/122972509

版权

图像机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文地址：Deformable Convolutional Networks

针对视觉任务中，如何根据物体的尺寸、位置、视角等来调整模型的几何变化，一般传统做法有：

1）通过数据增强等方式，增加训练数据的多样性

2）使用transformation-invariant的特征和算法，比如TI-pooling (transformation-invariant pooling)和SIFT（scale invariant feature transform）

但这些方法有一些缺点：比如

1）需要假设几何变形是固定和已知的，然后才能根据先验知识设计数据增强的方法或者transformation-invariant的算法，这样如果存在未知的形变就无法处理

2）如果几何变形比较复杂，设计难度较大

同时，CNN虽然有一定的抗形变的能力，但依然无法有效处理复杂未知的形变，这是由于卷积核采用了固定的结构，固定的位置，pooling采用固定的比列进行压缩等

可变形卷积（Deformable CNN）

对于3x3卷积核，领域为R={(-1,-1),(-1,0),...,(0,1),(1,1)}，权重W。

对于输出特征图中的每个位置p0，其卷积后的结果为

图片2.jpg

Deformable CNN中，R可以通过偏置 {Δpn | n=1,...,N} ,N=|R| 变形，则上式可变形为：

图片5.jpg

可变形Attention（Deformable Attention）

传统 Attention公式如下：

Deformable Attention对 k / v 做了改变，其值基于位置改变后的插值：

Φ函数就是双线性插值操作， Δp 就是基于 q 学出来的每个位置偏差。

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Deformable CNN 和 Deformable Attention

论文地址：Deformable Convolutional Networks针对视觉任务中，如何根据物体的尺寸、位置、视角等来调整模型的几何变化，一般传统做法有：1）通过数据增强等方式，增加训练数据的多样性2）使用transformation-invariant的特征和算法，比如TI-pooling (transformation-invariant pooling)和SIFT（scale invariant feature transform）但这些方法有一些缺点：比如1）需要假设几何
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。