MobileNetV3-学习记录

最新推荐文章于 2024-09-14 21:53:48 发布

羊村第一突破手懒羊羊

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量46

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/lzf767801/article/details/131718484

版权

引入：本次学习内容基本来自于Andrew G. Howard ，Mark Sandler等编写的的《Searching for MobileNetV3》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。

（一）摘要：相比于V2版本，V3版本主要完成了三个方面的技术创新。同时精简了网络结构，通过一系列措施减少了计算量和延迟性，并且提高了模型的精准度。以提供下一代高精度高效的神经网络模型来驱动设备上的计算机视觉。新的网络推动了最新技术的发展，并展示了如何将自动化搜索与新的体系结构进步结合起来，以构建有效的模型。

（二）发表时间：2019

（三）关键技术：精简耗时层，新的激活函数，更新Block结构

（四）学习笔记：

新式结构：更新了新的block、利用Nas优化参数和结构，更新部分层结构。

新Block:加入了注意力机制，针对得到的特征矩阵，对每一个channel进行池化处理，接着通过两个全连接层得到一个新的量并与先前的特征矩阵相乘，从而得到一个新的特征图。这之中值得注意的是，第一个全连接层的channel是特征矩阵的四分之一，第二个则与特征矩阵保持一致。

新激活函数：在以往的网络结构中，基本使用的都是Relu6的激活函数，但是在V3版本中，作者使用了一个新的激活函数——H-swish激活函数。相比于Relu6，它是在RElu6的基础上进行更改，基于h-sigmoid函数完成。它具有更高的精确度，并且计算更加方便。

新的耗时层：首先减少了第一个卷积层的卷积核个数（从32减少到了16），因为发现就算减少一半的数量，准确率也与之前差不多，并且能够节约两毫米左右的时间。

精简了Last stage部分。作者是想法是虽然1×1矩阵的作用是完成升维，并且在结构中具备十分重要的战略性地位，但是这是以高延迟率为代价的。因此为了降低延迟，作者将它调整至最终的平均池化层之后，这样不仅节省了计算资源，还降低了延迟性。而当去除了最开始的1×1升维层之后，那么后面那些瓶颈层就没啥必要来减少计算量了，因此全部去掉，只需要留着最后一个降维就行了。这样做并不会损失精度，并且有效的最后一个阶段将延迟减少 10毫秒，即 15% 的运行时间，并将操作数量减少了 3000 万个Madd。