【图像分类】MobileNet: 一点创新、两个超参

最新推荐文章于 2023-05-13 21:57:40 发布

行路南

最新推荐文章于 2023-05-13 21:57:40 发布

阅读量1k

点赞数 1

分类专栏：图像分类文章标签：卷积神经网络图像分类人工智能移动开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010414589/article/details/116700603

版权

在这里插入图片描述

MobileNet是2017年由Google提出的一个应用于移动端和嵌入式的卷积神经网络。它的主要应用场景包括有智能手机、无人机、机器人、自动驾驶、增强现实等等。

在这之前，研究者更多还是关注于精度的提升，模型也是朝着深度更深、结构更复杂的方向发展。从最初12年提出的8层的AlexNet、再到14年各领风骚的19层的VGG和22层的GoogLeNet、再到15年何凯明大神提出的152层的ResNet。可见，深度是越来越深，精度是越来越高。

但与此同时，这些网络的参数和计算量也是足够的大，很难在移动端和嵌入式设备中使用。

本文介绍的MobileNet就是一个针对移动端、参数量和计算量都大幅减小，同时精度很高的一个高效卷积神经网络。

我对MobileNet的总结是八个字：一点创新，两个超参。

1 一点创新

那么MobileNet 有哪些创新之处呢？

其实最主要的创新就只有一点。那就是采用了depthwise separable convolution，中文叫法是深度可分离卷积。

如果之前没听过，听这个名字感觉很高大上的样子。其实如果你了解标准的卷积操作，那么了解它也是很容易的事情。

在这里插入图片描述

如上图所示，这是一张标准卷积的示意图。我们看到一个标准的卷积操作中既包含对输入特征图的过滤，又包含基于通道方向的组合。

深度可分离卷积所做的就是对标准卷积的分解，分解为一个depthwise convolution 和一个pointwise convolution 。（下文中，分别称之为DW卷积和PW卷积）

也即是说，在MobileNet的网络中不再使用标准卷积，而是采用这两个DW卷积和PW卷积来代替。

那么，什么是DW卷积和PW卷积呢？

1.1 DW卷积

在这里插入图片描述

这是DW卷积的示意图。我们看到，它的卷积核个数和输入特征图的通道个数一致（上图中均是4个），每个卷积核只有一个通道，作用于输入特征图的对应深度上。

它与标准卷积不同的是：在标准卷积中，每个卷积核的通道数是与输入特征图的通道数一致的，每个卷积核都与输入特征图在空间宽度、高度和深度上进行过滤和组合，并形成一张特征图；且有N个这样的卷积核，最终形成的输出特征图也就是通道数为N的特征图。

而DW卷积，明显简化了许多。它的一个卷积核只有单个通道，只负责输入特征图深度方向的一层特征图。这样很明显参数量会大大减少。（在下一节中会给出具体数据）

仅仅只有depthwise convolution是不够的，因为它只实现了对输入特征图宽度和高度的过滤操作，并没有对通道方向进行组合。因此我们还需要一个组合的操作。这便是PW卷积要做的事情。

1.2 PW卷积

PW卷积就是普通的1*1卷积。

我们之前介绍过，1*1卷积实现了对输入特征图在通道方向上的加权组合，来生成新的特征图。并根据卷积核的个数的多少，决定输出特征图的通道数。

因此，我们这里就使用一个1*1卷积，来对DW卷积的输出结果在通道方向进行线性的组合。

如下图所示，可以看到和标准卷积的区别，只是卷积核变为了1*1的大小。

在这里插入图片描述

1.3 对比标准卷积与深度可分离卷积的计算量

接下来，我们分析一下，采用DW卷积和PW卷积组合的这种深度可分离卷积，是如何大幅度减少网络参数的。

我们不妨设输入的特征图大小为 $D_F * D_F *M$ ，其中 $D_F$ 表示输入特征图的空间宽度和高度， $M$ 表示输入特征图的通道数（深度）;

假设卷积核大小为 $D_K * D_K * M * N$ ，其中 $D_K$ 表示卷积核的空间宽度和高度， $M$ 表示输入特征图的通道数，N表示卷积核的个数; 且卷积核的步距stride=1，采用same padding的填充方式。

那么一个标准卷积计算量是：

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
【图像分类】MobileNet: 一点创新、两个超参

MobileNet是2017年由Google提出的一个应用于移动端和嵌入式的卷积神经网络。它的主要应用场景包括有智能手机、无人机、机器人、自动驾驶、增强现实等等。在这之前，研究者更多还是关注于精度的提升，模型也是朝着深度更深、结构更复杂的方向发展。从最初12年提出的8层的AlexNet、再到14年各领风骚的19层的VGG和22层的GoogLeNet、再到15年何凯明大神提出的152层的ResNet。可见，深度是越来越深，精度是越来越高。但与此同时，这些网络的参数和计算量也是足够的大，很难在移动端和嵌入.
复制链接

扫一扫

专栏目录

行路南 CSDN认证博客专家 CSDN认证企业博客

码龄11年

129: 原创

3万+: 周排名

46万+: 总排名

113万+: 访问

: 等级

5729: 积分

426: 粉丝

613: 获赞

255: 评论

3026: 收藏

私信

关注

热门文章

分类专栏

OpenCV 3篇
C++
语义分割 6篇
图像分类 5篇
数据集 3篇
NVIDIA DeepStream 9篇
LeetCode 8篇
目标检测 4篇
数据增强 1篇
PyTorch 2篇
deep learning 4篇
目标追踪 2篇
自然语言处理 2篇
知识图谱 6篇
matplotlib 1篇
Git 1篇
机器学习 19篇
数据挖掘 22篇
算法 7篇
学习随笔 15篇
Hadoop 8篇
Linux 4篇
软件部署 17篇

最新评论

【PyTorch】torch.mean(), dim=0, dim=1 详解
lanlalala: a tensor([[[ 0., 1., 2., 3.], [ 4., 5., 6., 7.], [ 8., 9., 10., 11.]], [[12., 13., 14., 15.], [16., 17., 18., 19.], [20., 21., 22., 23.]]], dtype=torch.float64) a.shape torch.Size([2, 3, 4]) mean0 tensor([[[ 6., 7., 8., 9.], [10., 11., 12., 13.], [14., 15., 16., 17.]]], dtype=torch.float64) mean0.shape torch.Size([1, 3, 4]) mean1 tensor([[[ 4., 5., 6., 7.]], [[16., 17., 18., 19.]]], dtype=torch.float64) mean1.shape torch.Size([2, 1, 4]) mean2 tensor([[[ 1.5000], [ 5.5000], [ 9.5000]], [[13.5000], [17.5000], [21.5000]]], dtype=torch.float64) mean2.shape torch.Size([2, 3, 1])
【PyTorch】torch.mean(), dim=0, dim=1 详解
lanlalala: 按照楼主的，可供参考 a = torch.arange(24, dtype=float).reshape((2,3,4)) print('a',a) print('a.shape', a.shape) print(" ") mean0 = torch.mean(a, dim=0, keepdims=True) print('mean0', mean0) print('mean0.shape', mean0.shape) print(" ") mean1 = torch.mean(a, dim=1, keepdims=True) print('mean1', mean1) print('mean1.shape', mean1.shape) print(" ") mean2 = torch.mean(a, dim=2, keepdims=True) print('mean2', mean2) print('mean2.shape', mean2.shape)
7G的森林火情数据集，文末附数据集和源代码
qq_56413072: 博主，求一份数据集有没有百度网盘链接
7G的森林火情数据集，文末附数据集和源代码
weixin_43880420: 博主，这个数据集有标注文件嘛？
二叉树的后序遍历
小白 ~forever: 你这页面设计有点离谱，锚点链接不用，用新页面

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。