MobileNetV1, V2, V3学习笔记_mobilenetv3unet-CSDN博客

本文链接：https://blog.csdn.net/usdkey/article/details/126138219

本文详细介绍了MobileNet系列的三个版本，包括MobileNetV1的Depthwise Convolution，V2的Inverted Residuals结构，以及V3的轻量级注意力模型和h-swish激活函数。此外，还展示了使用HybridSN模型进行高光谱图像分类的代码作业，包括数据处理、模型构建、训练和测试过程。

摘要由CSDN通过智能技术生成

MobileNetV1, V2, V3学习笔记-第四周

1.MobileNet网络详解

传统卷积神经网络局限性：内存需求大、运算量大，导致无法在移动设备及嵌入式设备上运行。
MobileNet网络是由google团队在2017年提出的，专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络，在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%，但模型参数只有VGG的1/32)。
网络中的亮点：

Depthwise Convolution结构(大大减少运算量和参数数量)
增加超参数α、β
传统卷积：

DW卷积：

PW卷积：

使用DW卷积后输出特征矩阵的channel是与输入特征矩阵的channel相等的，如果想改变/自定义输出特征矩阵的channel，那只需要在DW卷积后接上一个PW卷积即可，如下图所示，其实PW卷积就是普通的卷积而已（只不过卷积核大小为1）。通常DW卷积和PW卷积是放在一起使用的，一起叫做Depthwise Separable Convolution（深度可分卷积）。
那Depthwise Separable Convolution（深度可分卷积）与传统的卷积相比有到底能节省多少计算量呢，下图对比了这两个卷积方式的计算量，其中Df是输入特征矩阵的宽高（这里假设宽和高相等），Dk是卷积核的大小，M是输入特征矩阵的channel，N是输出特征矩阵的channel，卷积计算量近似等于卷积核的高 x 卷积核的宽 x 卷积核的channel x 输入特征矩阵的高 x 输入特征矩阵的宽（这里假设stride等于1），在我们mobilenet网络中DW卷积都是是使用3x3大小的卷积核。所以理论上普通卷积计算量是DW+PW卷积的8到9倍

MobileNet v1的网络结构，表中标Conv的表示普通卷积，Conv dw代表刚刚说的DW卷积，s表示步距，根据表格信息就能很容易的搭建出mobileNet v1网络。在mobilenetv1原论文中，还提出了两个超参数，一个是α一个是β。α参数是一个倍率因子，用来调整卷积核的个数，β是控制输入网络的图像尺寸参数，下图右侧给出了使用不同α和β网络的分类准确率，计算量以及模型参数：

2.MobileNet v2网络详解

MobileNet v2网络是由Google团队在2018年提出的，相比MobileNet v1网络，准确率更高，模型更小。
网络中的亮点：

Inverted Residuals(倒残差结构)
Linear Bottlenecks
如下下图所示，左侧是ResNet网络中的残差结构，右侧就是MobileNet v2中的到残差结构。在残差结构中是1x1卷积降维->3x3卷积->1x1卷积升维，在倒残差结构中正好相反，是1x1卷积升维->3x3DW卷积->1x1卷积降维。为什么要这样做，原文的解释是高维信息通过ReLU激活函数后丢失的信息更少（注意倒残差结构中基本使用的都是ReLU6激活函数，但是最后一个1x1的卷积层使用的是线性激活函数）。

ReLU6激活函数：

在使用倒残差结构时需要注意下，并不是所有的倒残差结构都有shortcut连接，只有当stride=1且输入特征矩阵与输出特征矩阵shape相同时才有shortcut连接（只有当shape相同时，两个矩阵才能做加法运算，当stride=1时并不能保证输入特征矩阵的channel与输出特征矩阵的channel相同）。

下图是MobileNet v2网络的结构表，其中t代表的是扩展因子（倒残差结构中第一个1x1卷积的扩展因子），c代表输出特征矩阵的channel，n代表倒残差结构重复的次数，s代表步距（注意：这里的步距只是针对重复n次的第一层倒残差结构，后面的都默认为1）。

3.MobileNet v3网络详解

MobileNetV3 一种轻量级网络，它的参数量还是一如既往的小。
它综合了以下四个特点：
1、MobileNetV1的深度可分离卷积（depthwise separable convolutions）。
2、MobileNetV2的具有线性瓶颈的逆残差结构(the inverted residual with linear bottleneck)。
3、轻量级的注意力模型。
4、利用h-swish代替swish函数。
MobileNetV3（large）的整体结构：

第一列Input代表mobilenetV3每个特征层的shape变化；
第二列Operator代表每次特征层即将经历的block结构，我们可以看到在MobileNetV3中，特征提取经过了许多的bneck结构；
第三、四列分别代表了bneck内逆残差结构上升后的通道数、输入到bneck时特征层的通道数。
第五列SE代表了是否在这一层引入注意力机制。
第六列NL代表了激活函数的种类，HS代表h-swish，RE代表RELU。
第七列s代表了每一次block结构所用的步长。

MobileNetV3特有的bneck结构：
bneck
它综合了以下四个特点：
a、MobileNetV2的具有线性瓶颈的逆残差结构(the inverted residual with linear bottleneck)。即先利用1x1卷积进行升维度，再进行下面的操作，并具有残差边。
b、MobileNetV1的深度可分离卷积（depthwise separable convolutions）。在输入1x1卷积进行升维度后，进行3x3深度可分离卷积。
c、轻量级的注意力模型。这个注意力机制的作用方式是调整每个通道的权重。
d、利用h-swish代替swish函数。
在结构中使用了h-swishj激活函数，代替swish函数，减少运算量，提高性能。

4.代码作业：HybridSN 高光谱分类

首先取得数据，并引入基本函数库：

4.1 定义 HybridSN 类

模型的网络结构为如下图所示：

三维卷积部分：
conv1：（1, 30, 25, 25）， 8个 7x3x3 的卷积核 ==>（8, 24, 23, 23）
conv2：（8, 24, 23, 23）， 16个 5x3x3 的卷积核 ==>（16, 20, 21, 21）
conv3：（16, 20, 21, 21），32个 3x3x3 的卷积核 ==>（32, 18, 19, 19）
接下来要进行二维卷积，因此把前面的 32*18 reshape 一下，得到（576, 19, 19）
二维卷积：（576, 19, 19） 64个 3x3 的卷积核，得到（64, 17, 17）
接下来是一个 flatten 操作，变为 18496 维的向量，
接下来依次为256，128节点的全连接层，都使用比例为0.4的 Dropout，
最后输出为 16 个节点，是最终的分类类别数。
下面是 HybridSN 类的代码：

class_num = 16
 
class HybridSN(nn.Module):
  def __init__(self):
    super(HybridSN, self).__init__()

    self.conv1 = nn.Sequential(
      nn.Conv3d(1, 8, (7, 3, 3)),
      nn.BatchNorm3d(8),
      nn.ReLU(inplace=True)
    )
 
    self.conv2 = nn.Sequential(
      nn.Conv3d(8, 16, (5, 3, 3)),
      nn.BatchNorm3d(16),
      nn.ReLU(inplace=True)
    )
 
    self.conv3 = nn.Sequential(
      nn.Conv3d(16, 32, (3, 3, 3)),
      nn.BatchNorm3d(32),
      nn.ReLU(inplace=True)
    )

    self.conv_2d = nn.Sequential(
      nn.Conv2d(576, 64, (3, 3)),
      nn.BatchNorm2d(64),
      nn.ReLU(inplace=True)
    )

    self.fc1 = nn.Linear(in_features=18496, out_features=256)
    self.fc2 = nn.Linear(in_features=256, out_features=128)
    self.fc3 = nn.Linear(in_features=128, out_features=class_num)
    self.drop = nn.Dropout(p=0.4)
 
  def forward(self, x):
    out = self.conv1(x)
    out = self.conv2(out)
    out = self.conv3(out)
    out = out.reshape(out.shape[0], -1, 19, 19)
    out = self<