这篇文章也惊艳到我,故总结如下:
主要参考于:
https://www.cnblogs.com/daihengchen/p/6880774.html和一个公众号
论文:https://arxiv.org/abs/1703.06211
另外关于这篇文章,来自地平线的ALAN Huang同学在知乎上给出了一个很精辟的回答。
conv,pooling这种操作,其实可以分成三阶段: indexing(im2col) ,reduce(sum), reindexing(col2im). 在每一阶段都可以做一些事情。 用data driven的方式去学每一阶段的参数,也是近些年的主流方向。
个人认为,其实可以更细分为四个阶段,每个阶段其实都值得深入思考:
-
Indexing (im2col):这也就是本篇文章关注的部分。
-
Computation (gemm):在im2col之后,conv就被转化为了一个dense matrix multiplication的问题。本质上,conv还是一个线性模型就是因为在这一步还是一个线性变化。有若干工作试图增强计算步骤的表示能力。从最开始的Network In Network到后来的Neural Decision Forest,再到最近我们的Factorized Bilinear Layer,都是在这一步试图做出一些变化。
-
Reduce (sum):最简单的reduce操作就是求和,但是这个步骤还是有大量变化的余地。例如,是否可以通过类似于attention一样的机制做加权求和?是否可以通过random projection引入随机性?
-
Reindex (col2im):这步骤是第一步的逆操作。
摘要
由于构造卷积神经网络 (CNN) 所用的模块中几何结构是固定的,其几何变换建模的能力本质上是有限的。在我们的工作中,我们引入了两种新的模块来提高卷积神经网络 (CNN) 对变换的建模能力,即可变形卷积 (deformable convolution) 和可变形兴趣区域池化 (deformable ROI pooling)。它们都是基于在模块中对空间采样的位置信息作进一步位移调整的想法,该位移可在目标任务中学习得到,并不需要额外的监督信号。新的模块可以很方便在现有的卷积神经网络 (CNN) 中取代它们的一般版本,并能很容易进行标准反向传播端到端的训练,从而得到可变形卷积网络 (deformable convolutional network)。大量的实验验证了我们的方法在目标检测和语义分割这些复杂视觉任务上的有效性。代码:https://github.com/ msracver/Deformable-ConvNets.。
引言:(选取部分)
视觉识别的一个关键挑战是如何适应物体尺度、姿态、视点和部分变形中的几何变化或模型几何变换。一般来说,有两种方法。第一种方法是建立具有足够期