CompConv: A Compact Convolution Module for Efficient Feature Learning 论文学习

最新推荐文章于 2022-12-02 17:41:53 发布

calvinpaean

最新推荐文章于 2022-12-02 17:41:53 发布

阅读量721

点赞数 3

分类专栏：目标检测深度学习图像识别

本文链接：https://blog.csdn.net/calvinpaean/article/details/118188972

版权

深度学习同时被 3 个专栏收录

139 篇文章 12 订阅

订阅专栏

目标检测

86 篇文章 4 订阅

订阅专栏

图像识别

81 篇文章 3 订阅

订阅专栏

Abstract

CNN 在各视觉任务上取得显著成功，但计算开支巨大。为了解决这个问题，现有方法要么对训练好的模型做压缩，要么设计一个轻量级的网络结构训练。本文作者仔细研究了卷积算子，降低计算开支。提出了一个简洁的卷积模块，叫做 CompConv，有助于高效的特征学习。基于分治的思想，CompConv 能省去大量的计算开支和参数，来产生一定维度的特征图。此外，为了有效地继承输入信息，CompConv 往输出中加入输入特征是非常审慎的。CompConv 是即插即用的，能直接应用到现有的 CNN 结构中，替代标准卷积层。大量实验结果显示，CompConv 可以压缩基准 CNN 结构，而不会损失多少性能，领先于其它方法。

1. Introduction

CNN 由于其强大的特征学习能力，近些年在多项计算机视觉任务上取得突破进展。但是，它的成功依赖于大量的计算开支和存储资源，使这些模型无法在资源有限的设备上部署。

为了减轻计算资源的依赖，一个直接的办法就是压缩训练好的大模型。为此，现有方法要么使用一个小模型来从教师模型蒸馏知识，要么裁剪掉多余的模型连接，让它更精炼。除了训练大网络然后压缩之外，一个替代方案就是直接学习一个轻量级模型。但是，降低模型大小的副作用就是会牺牲部分能力。为了解决这个问题，我们需要精心设计网络结构，如 MobileNet 和 SqueezeNet。

在这里插入图片描述
图1. CompConv 模块的概念图。与标准卷积（a）相比，输入和输出通道是完全连接的，CompConv 采用了分治的策略来递归地输出结果。(b) 描述了 CompConv 的核心单元，卷积操作只贡献一半的输出通道（实线），另一半则从输入中借用（虚线）。

本文中，与之前的工作不同，作者仔细研究了卷积算子，提出压缩卷积模块可以节约计算负载。卷积模块学习从一个特征空间到另一个空间的变换。给定一个通道数为 $C_{in}$ 的输入特征图，卷积核将其映射到一个通道数为 $C_{out}$ 的输出特征图。对于每个像素点，传统卷积需要 $C_{in}\times C_{out}$ 个连接，如图1a所示。但是，论文[9,22,10]指出，CNN 的学习带有一定的过参数化和冗余性。因此作者提出了 CompConv 来简洁地实现该卷积。

CompConv 没有直接输出最终的特征图，而是利用一个核心单元完成，该单元沿着通道维度将输出等分为两份。一个是通过对输入特征做卷积映射得到，另一个则借用输入通道的一部分。这样，我们就可以最大程度、最小代价地传递学到的信息。图1b 展示了这个过程。更重要的是，我们的核心单元可以递归的方式完成，实现分治的思想。CompConv 能够节约大量的计算开支和参数，进行高效的特征提取。本文贡献如下：

提出了一个简洁的卷积模块，叫做 CompConv。它利用分治的策略和精心设计的恒等映射，显著地降低了计算成本。
通过研究模型能力是如何被递归计算的深度影响的，作者详细地分析了 CompConv。作者进一步提出了控制压缩率的机制。
作者在多个 CNN 基准上使用 CompConv，替换传统卷积层。在检测和分类任务上，CompConv 能够大幅度节省计算成本，而不会牺牲模型的性能，超越现有的方法。

2. Related Work

模型压缩。目前的DNN都有数百万个权值，对内存和算力要求很高。一个直接的办法就是利用规则或学习的方式去除不重要的神经元连接，称为网络剪枝。最近工作表明精度对于训练和推理也不是必需的。于是人们普遍采用量化权重和激活值的方式来提升网络的效率。二值网络只使用 1-bit 神经元来表示模型权重和激活值，用布尔运算代替所有的 MAC 操作，节省计算量。此外，知识蒸馏是另一种方法，用一个训练好的大教师网络来指导小的学生网络的训练。这样学生网络能够取得与教师网络相近的性能，但是推理速度更快。

轻量模型设计。降低CNN计算量的另一种方法就是学习一个轻量级模型，但是模型大小和学习能力之间要平衡好。现有的方法都通过一个精心设计的网络结构，提高模型效率的同时保证其性能。SqueezeNet 采用了大量的 $1\times 1$ 卷积，降低参数量。MobileNet V1 和 V2 利用深度可分离卷积和倒转线性残差 bottleneck，提升计算效率。ShuffleNet V1 和 V2 提出了 channel shuffle 操作，增强不同通道分组之间的信息传递，对硬件比较友好。GhostNet 研究了特征图之间的特征冗余性，通过廉价的操作来学习 ghost 特征。神经结构搜索目的是自动地找到最高效率的网络结构。MobileNet V3 利用了 Auto-ML 技术，实现了更高的表现，而浮点计算数量更少。

3. Compact Convolution Module

作者提出了 CompConv 模块，通过分治的策略高效地从输入中学习特征输出。3.1节介绍其动机。3.2节讲述 CompConv 的核心单元。3.3节介绍完整的CompConv模块，以递归的方式执行核心单元。3.4节提供了一个自适应的策略。3.5节分析了其计算复杂度。

3.1 Motivation

卷积操作将特征从一个空间映射到另一个。在某种程度上，该过程和离散傅里叶变换（DFT）类似，将时域的信号序列映射到频域。快速傅里叶变换（FFT）常被用于加速 DFT。受到 FFT 启发，作者提出了 CompConv，通过分治策略对传统卷积进行压缩。

我们回顾一下 FFT 的形式。当 DFT 应用到一个时域内由 $N$ 个点组成的信号序列 $x (t)$ 时，FFT 会将之分为两个 $\frac{N}{2}$ 点子序列，记做 $x^{(e)}(t)$ 和 $x^{(o)}(t)$ ，然后分别对它们做 DFT。这里 $e$ 和 $o$ 代表偶数和奇数。因此，频域的最终结果 $X (k)$ 可以从中间变换的结果 $X^{(e)}(k)$ 和 $X^{(o)}(k)$ 得到：

$X(k)=X^{(e)}(k) + W_N^k X^{(o)}(k) \tag{1}$

其中 $W_N^k=\exp(-j \frac{2\pi}{N}k)$ 是一个乘数。基于此，拆分后的 $X^{(e)}(k)$ 和 $X^{(o)}(k)$ 可被拆分为更小的组，以递归的方式进行。

3.2 CompConv 核心单元

受 FFT 启发，作者在卷积模块中引入了分治策略，提升其计算效率。作者将CNN输出的中间特征图按照通道维度当作序列。为了得到一个 $C$ 通道的特征图 $\mathbf{X}$ ，我们可以有两个特征图 $\mathbf{X}_A$ 和 $\mathbf{X}_B$ ，每个都有 $\frac{C}{2}$ 个通道，然后将它们组合起来：

$\mathbf{X} = \mathbf{X}_A \oplus \mathbf{W} \mathbf{X}_B \tag{2}$

其中 $\oplus$ 表示通道维度上 concat 操作， $\mathbf{W}$ 是一个可学习参数，用于变换特征图。

等式2包含了 CompConv 的核心思想。CompConv 的核心单元有两个部分，如图2所示。一部分（即 $\mathbf{X}_A$ ）直接来自于输入通道的恒等映射，只需很少的代价即可继承输入的信息。另一部分（即 $\mathbf{X}_B$ ）则通过对输入特征变换得到。

3.3 Recursive Computation

有了等式2，CompConv 可以递归的方式计算，将 $\mathbf{X}_B$ 进一步拆分为两半：

$\mathbf{X}_{B_i} = \mathbf{X}_{A_{i+1}} \oplus \mathbf{W}_{i+1} \mathbf{X}_{B_{i+1}}, i=0,...,d-1 \tag{3}$

其中 $d$ 表示递归深度。

在这里插入图片描述
图2. CompConv 的框架，递归深度为3。使用分治的策略，CompConv 递归地计算输出结果。每一步中，为了得到特定通道数的特征图，CompConv 通过传统的卷积操作得到一半的通道（蓝色块），另一半（橘色块）来自于输入的恒等映射。同时，为了增加学习能力而保持低计算量，在第一个分离步骤时，作者用一个额外的卷积模块替代了恒等映射，从而产生尾部的通道（绿色块）。

Tailing channels. 作者对待第一次分离（即 $\{\mathbf{X}_{A_0}, \mathbf{X}_{B_0}\}$ ）与后面的步骤是不一样的，如图2所示。 $\mathbf{X}_{A_0}$ 不是直接从输入那里借来的，而是从 $\mathbf{X}_{B_0}$ 变换得到。这么做出于两点原因。第一， $\mathbf{X}_{A_0}$ 在所有的恒等映射 $\{\mathbf{X}_{A_i}\}_{i=0}^{d-1}$ 中通道数最多的。如果我们直接复制输入通道，就会在输入特征图和输出特征图之间存在过多的冗余，严重限制模块的学习能力。其次，除了从 $\mathbf{X}_{B_0}$ 变换而来，也有其它的方式得到 $\mathbf{X}_{A_0}$ ，如从整个输入特征图映射得到，或者像 $\mathbf{X}_{B_0}$ 一样构建另一个递归。但是显然，从 $\mathbf{X}_{B_0}$ 得到 $\mathbf{X}_{A_0}$ 是成本最低的。 $\mathbf{X}_{B_0}$ 的计算已经包含了足够多的输入特征信息，因此可以保证其学习能力。对于这个变换，作者使用了分组卷积，组数等于通道数。

Integrating Recursive Results. 为了更好地利用递归过程中的计算，作者不仅将两个最大的子特征（即 $\mathbf{X}_{A_0}$ 和 $\mathbf{X}_{B_0}$ ）组合，也将所有中间结果进行了整合，从而得到最终输出，如图2所示。这样，我们可以充分利用计算操作，产生最终输出。此外，在将这些特征图 concat 之后，也有一个 shuffle 模块。

3.4 自适应分离策略

如3.3节所讲述的，CompConv 采用分治策略来进行高效的特征学习。因此对于计算效率和学习能力来说，如何递归地分离通道就很关键。作者用 $C_{in}$ 和 $C_{out}$ 表示输入通道数和输出通道数。 $C_{prim}$ 表示最小计算单元的通道数，如图2中 $\mathbf{X}_{B_2}$ 的 $d = 3$ 。考虑到递归计算过程中，通道数的增长是指数级的，我们可以认为

$C_{out} = \sum_{i=1}^{d} 2^i C_{prim} \tag{4}$

我们可以通过下面的式子很容易地解决等式4：

$C_{prim} = \lceil \frac{C_{out}}{2\times (2^d - 1)} \rceil \tag{5}$

其中 $\lceil \cdot \rceil$ 表示向上取整。如果所有单元的通道和大于 $C_{out}$ ，我们可以直接丢掉 $X_{A_0}$ 中的最后几层，确保输出特征的维度没问题。

Choice of Recursive Depth。从等式5可以看到， $C_{prim}$ 高度依赖于递归深度 $d$ ，它是 CompConv 模块的一个超参。 $d$ 越大，压缩率就越高，当 $d = 0$ 时，就没有压缩。考虑到不同的网络结构和模型大小，作者提出了一个自适应策略来选取递归深度：

$d=\max (\log_2 (\max(1, \frac{C_{in}}{C_0})) + 1,3) \tag{6}$

$C_0$ 是与模型具体相关的设计选择，取值范围是 ${32,64,128,256,512,...\}$ ，可以通过目标压缩率和模型大小来决定。 $C_0$ 越大， $d$ 就越小，造成压缩率降低。 $C_0$ 可用于平衡计算效率和学习能力的选择。递归深度 $d$ 与输入通道数 $C_{in}$ 有关，也就是说该策略会根据不同层而调节递归深度。为了确保最小单元有足够的计算能力，它会有足够数量的通道。 $C_{prim}$ 不会太小。从等式5,我们可以看到当 $d = 3$ 时， $C_{prim}$ 只占输出通道的 $\sim 8\%$ 。因此， $d$ 的最小值设为了3。