(八)深度可分离卷积(Depthwise Separable Convolution，DSC)

最新推荐文章于 2025-04-11 21:30:42 发布

恒友成

最新推荐文章于 2025-04-11 21:30:42 发布

阅读量9.8k

点赞数 7

分类专栏： DeepLearning 文章标签：深度学习卷积神经网络计算机视觉人工智能

本文链接：https://blog.csdn.net/lx_ros/article/details/127293543

版权

DeepLearning 专栏收录该内容

17 篇文章

订阅专栏

本文介绍了深度可分离卷积的概念及其在Xception和MobileNet等模型中的应用。通过对比常规卷积神经网络，详细解析了Depthwise逐通道卷积与Pointwise逐点卷积的工作原理及优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

深度可分离卷积（Depthwise Separable Convolution，DSC）最早出现在巴黎綜合理工學院(cmap ecole polytechnique)的Laurent Sifre于2014年提交的一篇名为“Rigid-motion scattering for image classification”的博士学位论文中。但让大家对DSC熟知的则是两个著名的模型，一个是2016年10月google对Inception v3改进后提出的Xception，另一个是2017年4月谷歌提出的专注于在移动设备上的轻量级神经网络MobileNet,关于MobileNet和Xception的介绍可参考知乎博文。要理解深度可分离卷积，先来回顾一下常规卷积神经网络。

1.常规卷积神经网络

大多数的资料将常规卷积神经网络都是以单通道图像为例子，不便于理解多通道的情况。这里借用CS231N讲义上的一个例子来说明：

https://cs231n.github.io//assets/conv-demo/index.html
<iframe src="https://cs231n.github.io//assets/conv-demo/index.html" width="100%" height="700px;" style="border:none;"></iframe>（本来是一个动图，CSDN这个老小子不给加载iframe标签）`

上图中，输入是5x5x3的图像，即宽W=5高H=5通道C=3,图中在输入图像上下左右边缘有+1的padding，故图中宽高为7，卷积核大小3x3x2，卷积步长stride=2,根据下述公式可求卷积输出的大小：（5-3+2）/2+1=3
$W_{out} = \frac{W-K+2P}{S} + 1$

其中W是输出图像的原始宽度，K是卷积核的大小，P是padding的大小，stride是卷积的步长,
从上图可以得到卷积参数的计算方式为3x3x3x2=54：
$K\times K \times C_{in} \times C_{out}$

图像卷积的计算可以参考下图：

在这里插入图片描述

卷积输出的通道为2卷积输入的通道为3,因此当前卷积层可理解为2个卷积核，每个卷积核的大小为3x3x3

输入通道1应用卷积核W0的通道1计算

$o0001=0\times 1+0\times 0+0\times (-1)+0\times 1+2\times 0+2\times (-1)+0\times 1+2\times (-1)+1\times 1 = -3$
输入通道1应用卷积核W0的通道2计算

$o0002=0\times 1+0\times (-1)+0\times 1+0\times 1+1\times 0+1\times (-1)+0\times (-1)+0\times (-1)+1\times 0 = -1$
输入通道1应用卷积核W0的通道3计算

$o0003=0\times 0+0\times (-1)+0\times (-1)+0\times 0+0\times (-1)+2\times (-1)+0\times 1+1\times 0+2\times (-1)=-4$
输出o[0,0,0]处的值为：

$o [0, 0, 0] = o 0001 + o 0002 + o 0003 + b = - 3 + (- 1) + (- 4) + 1 = - 7$