MobileNetV2-学习记录-CSDN博客

本文链接：https://blog.csdn.net/lzf767801/article/details/131697856

引入：本次学习内容基本来自于Andrew G. Howard ，Menglong Zhu等编写的的《MobileNetV2: Inverted Residuals and Linear Bottlenecks》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。

（一）摘要：

论文提出了一种基于MobileNetV2模型的改进方法，旨在实现在计算资源有限的移动设备上高效的图像分类和目标检测任务。通过引入倒置残差和线性瓶颈的设计思想，能够在保持模型性能的同时减少了参数数量和计算量。倒置残差采用先升维再降维的操作顺序，通过深度可分离卷积实现特征图的降维，并增强了模型的非线性表达能力。而线性瓶颈则以线性激活函数和1x1卷积层来进行特征图维度的缩放，进一步降低了计算量。实验结果表明，该方法在保持较高分类准确率的同时，具有更小的模型体积和更快的推理速度，适用于计算资源受限的移动设备。因此也为轻量级神经网络设计提供了一种有效的改进方法，有助于推动移动设备上的图像处理应用的发展。

（二）发表时间：2018

（三）关键词：逆残差网络，LB(Linear Bottleneck)技术

（四）学习收获：

论文创新点：第一是逆残差网络（并不是把残差网络反着用，而是结构形式与ResNet相反），第二点是使用了Linear Bottlenecks技术。

首先说明Linear Bottlenecks技术，因为这段在原文中不是很好理解，因此此处只是说说我自己的看法。首先，作者提到特征信息由高维是可以转向低维的，而在这之中ReLU会一直发挥着激活函数的作用，但是作者采用Linear Bottlenecks，而不使用ReLU的原因就是如果让ReLU去作为激活函数使用的话，结果如果是低通道数目（此处作者举例通道数为2或3），会导致关键信息的缺失（即文中提到的“manifold of interest”），当输出结果为高维时则不会出现这种情况。因此作者就在降维卷积网络后插入了LB层，来捕捉必要的特征信息，防止信息被破快，而不使用ReLU了（前面还是要用的，只是最后一层降维如果不用非线性激活而用LB技术的话，无伤大雅）。

第二个技术就是逆残差网络，和传统残差相比，开头将先利用卷积降维，处理运算后再变为原来的通道数，而逆残差网络则是先升高维度，再处理，再降维原来。因此，传统残差是一个两头大中间小的结构，而作者的这个残差是中间大两头小，因此称为逆残差网络。之所以这样做，是因为作者发现不止可以减少计算量，还可以提高梯度在层数之间的传播能力。

文中提到，当stride = 1且输入特征矩阵与输出特征矩阵shape（也就是通道数一致）相同时，才会出现shortcut连接。这点要什么注意，因为并不是所有层都可以使用，当输入输出通道数不一致时，根本无法进行shorcut连接。