论文笔记：Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convol

最新推荐文章于 2022-09-15 11:36:43 发布

龙骑士尹志华

最新推荐文章于 2022-09-15 11:36:43 发布

阅读量3.7k

点赞数 4

本文链接：https://blog.csdn.net/stezio/article/details/89361725

版权

论文《Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convol》提出了降低空间冗余的新方法。通过将特征图分解为高频和低频部分，使用不同维度的张量存储，有效处理高低频信息并减少计算成本。实验表明，该方法在处理大物体检测时表现优越，特别是在高分辨率图像上。

摘要由CSDN通过智能技术生成

论文地址：https://export.arxiv.org/abs/1904.05049
这是一篇最近新出的论文，引起了非常广泛的关注。比较期待后续代码的公布。

题目即文章的主要思想，表达很明确：对传统的convolution进行改进，以降低空间冗余。其中“Drop an Octave”指降低八个音阶，代表频率减半。

motivation

文章首先指出，在自然图像中，图片分为低频部分和高频部分。注意，此处的低频高频和之前所说的图片中出现的低频高频特征不一样。此处的低频和高频指图片经过傅里叶变换后对应的低频部分和高频部分。低频部分对应灰度图中变化平缓的部分，高频部分对应灰度图中变化剧烈的部分。具体表现出来，低频部分对应的图片整体结构，而高频部分对应的边缘细节。这一篇博客中有图例介绍。https://blog.csdn.net/bryant_meng/article/details/80900978
而论文作者也给出了图例：
在这里插入图片描述
作者随后认为，特征图中也有对应的低频部分和高频部分(又是一次从图像到特征图的性质拓展)。为了降低空间冗余，应该用低维度的tensor来储存变化缓慢的低频信息(文中选取的H,W减半)。如下图所示：
在这里插入图片描述