图像分类方向,仅作学习了解,不扩展细节。
作者认为:不仅自然世界中的图像存在高低频,卷积层的输出特征图以及输入通道(feature maps or channels)也都存在高、低频分量。低频分量支撑的是整体,比如企鹅的白色大肚皮。显然,低频分量是存在冗余的,在编码过程中可以节省。
在音乐中,Octave是八音阶的意思,隔一个八音阶,频率会减半;在这里,drop an octave就是通道尺寸减半的含义。基于以上考虑,作者提出OctConv用以取代传统CNN(vanilla CNN)。有以下两个关键步骤:
第一步,要获得输入通道(或图像)的线性尺度表示,称为Octave feature representation。
所谓高频分量,是指不经过高斯滤波的原始通道(或图像);
所谓低频分量,是指经过t=2的高斯滤波得到的通道(或图像)。
由于低频分量是冗余的,因此作者将低频分量的通道长/宽设置为高频分量通道长/宽的一半。
Q:那么高频通道和低频通道比例是多少呢?
- 作者设置了一个超参数α∈[0,1]α∈[0,1],表示低频通道的比例。
- 输入通道低频比例αin和输出通道低频比例αout设为相同。
Q:由于高/ 低频通道尺寸不一致,因此传统卷积无法执行。
但我们又不能简单地对低频通道进行升采样,因为相当于白干,计算量和内存就没办法节省了。
作者提出了对应的卷积解决方案:Octave Convolution。
该文通过尺度空间变换和Octave卷积操作,让网络更清晰地分开处理高、低频分量,并且在低频分量上节约了计算量。
计算过程及笔记: