可分离卷积-轻量级卷积神经网络

最新推荐文章于 2023-07-12 01:44:05 发布

shu_0233

最新推荐文章于 2023-07-12 01:44:05 发布

阅读量5k

点赞数

分类专栏：深度学习文章标签：机器学习深度学习

原文链接：https://baijiahao.baidu.com/s?id=1634399239921135758&wfr=spider&for=pc

版权

深度学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

任何看过MobileNet架构的人都会遇到可分离卷积（separable convolutions）这个概念。但什么是“可分离卷积”，它与标准的卷积又有什么区别？可分离卷积主要有两种类型：

空间可分离卷积（spatial separable convolutions）
深度可分离卷积（depthwise separable convolutions）

空间可分离卷积

从概念上讲，这是两者中较容易的一个，并说明了将一个卷积分成两部分（两个卷积核）的想法，所以我将从这开始。不幸的是，空间可分离卷积具有一些显着的局限性，这意味着它在深度学习中没有被大量使用。
空间可分卷积之所以如此命名，是因为它主要处理图像和卷积核（kernel）的空间维度：宽度和高度。（另一个维度，“深度”维度，是每个图像的通道数）。
空间可分离卷积简单地将卷积核划分为两个较小的卷积核。最常见的情况是将3x3的卷积核划分为3x1和1x3的卷积核，如下所示：
在这里插入图片描述
图1：在空间上分离3x3内核
空间可分卷积的主要问题是并非所有卷积核都可以“分离”成两个较小的卷积核。这在训练期间变得特别麻烦，因为网络可能采用所有可能的卷积核，它最终只能使用可以分成两个较小卷积核的一小部分。

深度可分离卷积

与空间可分离卷积不同，深度可分离卷积与卷积核无法“分解”成两个较小的内核。因此，它更常用。这是在keras.layers.SeparableConv2D或tf.layers.separable_conv2d中看到的可分离卷积的类型。
深度可分离卷积之所以如此命名，是因为它不仅涉及空间维度，还涉及深度维度（信道数量）。输入图像可以具有3个信道：R、G、B。在几次卷积之后，图像可以具有多个信道。你可以将每个信道想象成对该图像特定的解释说明（interpret）; 例如，“红色”信道解释每个像素的“红色”，“蓝色”信道解释每个像素的“蓝色”，“绿色”信道解释每个像素的“绿色”。具有64个通道的图像具有对该图像的64种不同解释。
类似于空间可分离卷积，深度可分离卷积将卷积核分成两个单独的卷积核，这两个卷积核进行两个卷积：深度卷积和逐点卷积。但首先，让我们看看正常的卷积是如何工作的。

标准的卷积：

然而，典型的图像并不是2D的; 它在具有宽度和高度的同时还具有深度。让我们假设我们有一个12x12x3像素的输入图像，即一个大小为12x12的RGB图像。
让我们对图像进行5x5卷积，没有填充（padding）且步长为1.如果我们只考虑图像的宽度和高度，卷积过程就像这样：12x12 - （5x5） - > 8x8。 5x5卷积核每25个像素进行标量乘法，每次输出1个数。我们最终得到一个8x8像素的图像，因为没有填充（12-5 + 1 = 8）。
然而，由于图像有3个通道，我们的卷积核也需要有3个通道。这就意味着，每次卷积核移动时，我们实际上执行5x5x3 = 75次乘法，而不是进行5x5 = 25次乘法。
和二维中的情况一样，我们每25个像素进行一次标量矩阵乘法，输出1个数字。经过5x5x3的卷积核后，12x12x3的图像将成为8x8x1的图像。
在这里插入图片描述
如果我们想增加输出图像中的信道数量呢？如果我们想要8x8x256的输出呢？
好吧，我们可以创建256个卷积核来创建256个8x8x1图像，然后将它们堆叠在一起便可创建8x8x256的图像输出。

这就是标准卷积的工作原理。我喜欢把它想象成一个函数：12x12x3-（5x5x3x256）->12x12x256（其中5x5x3x256表示内核的高度、宽度、输入信道数和输出信道数）。并不是说这不是矩阵乘法；我们不是将整个图像乘以卷积核，而是将卷积核移动到图像的每个部分，并分别乘以图像的一小部分。
深度可分离卷积的过程可以分为两部分：深度卷积（depthwise convolution 每个图像的通道数）和逐点卷积（pointwise convolution 宽度和高度。）。

第1部分-深度卷积:

在第一部分，深度卷积中，我们在不改变深度的情况下对输入图像进行卷积。我们使用3个形状为5x5x1的内核。
在这里插入图片描述
图6:深度卷积，使用3个内核将12x12x3图像转换为8x8x3图像。
每个5x5x1内核迭代图像的一个通道(注意:一个通道，不是所有通道)，得到每25个像素组的标量积，得到一个8x8x1图像。将这些图像叠加在一起可以创建一个8x8x3的图像。

第2部分-逐点卷积

记住，原始卷积将12x12x3图像转换为8x8x256图像。目前，深度卷积已经将12x12x3图像转换为8x8x3图像。现在，我们需要增加每个图像的通道数。
逐点卷积之所以如此命名是因为它使用了一个1x1核函数，或者说是一个遍历每个点的核函数。该内核的深度为输入图像有多少通道;在我们的例子中，是3。因此，我们通过8x8x3图像迭代1x1x3内核，得到8x8x1图像。
在这里插入图片描述
图7:逐点卷积，将一个3通道的图像转换为一个1通道的图像
我们可以创建256个1x1x3内核，每个内核输出一个8x8x1图像，以得到形状为8x8x256的最终图像。

就是这样!我们把卷积分解成两部分:深度卷积和逐点卷积。更抽象地说，如果原始卷积函数是12x12x3 - (5x5x3x256)→12x12x256，我们可以将这个新的卷积表示为12x12x3 - (5x5x1x1) - > (1x1x3x256) - >12x12x256。

深度可分离卷积的意义

我们来计算一下计算机在原始卷积中要做的乘法的个数。有256个5x5x3内核可以移动8x8次。这是256 x3x5x5x8x8 = 1228800乘法。

shu_0233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
可分离卷积-轻量级卷积神经网络

任何看过MobileNet架构的人都会遇到可分离卷积（separable convolutions）这个概念。但什么是“可分离卷积”，它与标准的卷积又有什么区别？可分离卷积主要有两种类型：空间可分离卷积（spatial separable convolutions）深度可分离卷积（depthwise separable convolutions）空间可分离卷积从概念上讲，这是两者中较容易的一个，并说明了将一个卷积分成两部分（两个卷积核）的想法，所以我将从这开始。不幸的是，空间可分离卷积具有一些
复制链接

扫一扫