论文地址:https://export.arxiv.org/abs/1904.05049
这是一篇最近新出的论文,引起了非常广泛的关注。比较期待后续代码的公布。
题目即文章的主要思想,表达很明确:对传统的convolution进行改进,以降低空间冗余。其中“Drop an Octave”指降低八个音阶,代表频率减半。
motivation
文章首先指出,在自然图像中,图片分为低频部分和高频部分。注意,此处的低频高频和之前所说的图片中出现的低频高频特征不一样。此处的低频和高频指图片经过傅里叶变换后对应的低频部分和高频部分。低频部分对应灰度图中变化平缓的部分,高频部分对应灰度图中变化剧烈的部分。具体表现出来,低频部分对应的图片整体结构,而高频部分对应的边缘细节。这一篇博客中有图例介绍。https://blog.csdn.net/bryant_meng/article/details/80900978
而论文作者也给出了图例:
作者随后认为,特征图中也有对应的低频部分和高频部分(又是一次从图像到特征图的性质拓展)。为了降低空间冗余,应该用低维度的tensor来储存变化缓慢的低频信息(文中选取的H,W减半)。如下图所示:
因此提出,卷积核应将低频部分和高频部分分开操作。要求能够更新每组信息并实现组间信息交互。
method
一般的,用 X ∈ R c ∗ h ∗ w X \in R^{ c*h*w} X∈Rc∗h∗w表示input feature tensor。作者在这里将 X X X分解为高频部分和低频部分{ X H , X L X^{H},X^{L} XH,XL}。高频部分 X H ∈ R ( 1 − α ) c ∗ h ∗ w X^{H}\in R^{(1-\alpha)c*h*w}