YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】

kay_545

已于 2024-05-20 12:55:26 修改

阅读量1.1k

点赞数 20

分类专栏： YOLOv5入门 + 改进涨点文章标签： YOLO YOLOv5 深度学习目标跟踪目标检测 YOLOv8 YOLOv5改进

于 2024-05-20 12:54:33 首次发布

本文链接：https://blog.csdn.net/m0_67647321/article/details/139042016

版权

YOLOv5入门 + 改进涨点专栏收录该内容

83 篇文章 76 订阅

订阅专栏

💡💡💡本专栏所有程序均经过测试，可成功执行💡💡💡

在YOLOv5的GFLOPs计算量中，卷积占了其中大多数的比列，为了减少计算量，研究人员提出了用ShuffleNetV2代替Conv。本文给大家带来的教程是将原来的Conv替换为ShuffleNetV2。文章在介绍主要的原理后，将手把手教学如何进行模块的代码添加和修改，并将修改后的完整代码放在文章的最后，方便大家一键运行，小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。

专栏地址： YOLOv5改进+入门——持续更新各种有效涨点方法

1.原理

2.代码实现

2.1 将ShuffleNetV2添加到YOLOv5中

1.原理

论文地址：ShuffleNet V2:Practical Guidelines for Efficient CNN Architecture Design点击即可跳转

代码地址： pytorch官方实现的代码点击即可跳转

关于ShuffleNetV1的原理查看： ShuffleNetV1点击即可跳转

ShuffleNetV2是一种用于图像分类和目标检测任务的神经网络架构，它是对ShuffleNet的改进版本。ShuffleNetV2旨在提高模型的性能和效率，同时保持低延迟和低计算成本。

下面是对ShuffleNetV2的一些关键点的解释：

1. 轻量级设计：ShuffleNetV2专注于轻量级设计，旨在在保持模型准确性的同时降低计算成本和内存占用。这使得ShuffleNetV2成为在资源受限环境下进行图像处理任务的理想选择，比如移动设备或边缘设备。

2. 深度可分离卷积：ShuffleNetV2使用了深度可分离卷积（Depthwise Separable Convolution），这种卷积操作将通道间的相关性和空间特征分开处理，从而降低了参数数量和计算量。这一特性使得模型更加轻量化。

3. 通道重组（Channel Shuffle）：ShuffleNetV2通过通道重组技术，将特征图的通道重新排列，以促进信息交流和特征融合，同时减少了参数量和计算复杂度。这对于提高模型性能和减少内存占用都起到了积极作用。

4. 基础单元：ShuffleNetV2的基础单元是一种特殊的模块，结合了深度可分离卷积、通道重组和残差连接等技术。这些基础单元可以有效地在网络中传递信息，并保持特征的丰富性。

5. 多尺度特征融合：ShuffleNetV2在设计上考虑了多尺度特征融合的需求，以提高模型对不同尺度下物体的检测和识别能力。这通过在网络中引入多个分支或模块来实现。

总的来说，ShuffleNetV2是一种轻量级而高效的神经网络架构，适用于在计算资源有限的环境下进行图像分类和目标检测任务。它通过深度可分离卷积、通道重组和多尺度特征融合等技术，实现了在保持模型性能的同时减少计算成本和内存占用的目标。

2.代码实现

2.1 将ShuffleNetV2添加到YOLOv5中

关键步骤一：将下面代码粘贴到/projects/yolov5-6.1/models/common.py文件中

class ShuffleNetV2_InvertedResidual(nn.Module):
    def __init__(self, inp, oup, stride):  # ch_in, ch_out, stride
        super().__init__()

        self.stride = stride

        branch_features = oup // 2
        assert (self.stride != 1) or (inp == branch_features << 1)

        if self.stride == 2:
            # copy input
            self.branch1 = nn.Sequential(
                nn.Conv2d(inp, inp, kernel_size=3, stride=self.stride, padding=1, groups=inp),
                nn.BatchNorm2d(inp),
                nn.Conv2d(inp, branch_features, kernel_size=1, stride=1, padding=0, bias=False),
                nn.BatchNorm2d(branch_features),
                nn.ReLU(inplace=True))
        else:
            self.branch1 = nn.Sequential()

        self.branch2 = nn.Sequential(
            nn.Conv2d(inp if (self.stride == 2) else branch_features, branch_features, kernel_size=1, stride=1, padding=0, bias=False),
            nn.BatchNorm2d(branch_features),
            nn.ReLU(inplace=True),

            nn.Conv2d(branch_features, branch_features, kernel_size=3, stride=self.stride, padding=1, groups=branch_features),
            nn.BatchNorm2d(branch_features),

            nn.Conv2d(branch_features, branch_features, kernel_size=1, stride=1, padding=0, bias=False),
            nn.BatchNorm2d(branch_features),
            nn.ReLU(inplace=True),
        )

    def forward(self, x):
        if self.stride == 1:
            x1, x2 = x.chunk(2, dim=1)
            out = torch.cat((x1, self.branch2(x2)), dim=1)
        else:
            out = torch.cat((self.branch1(x), self.branch2(x)), dim=1)

        out = self.channel_shuffle(out, 2)

        return out

    def channel_shuffle(self, x, groups):
        N, C, H, W = x.size()
        out = x.view(N, groups, C // groups, H, W).permute(0, 2, 1, 3, 4).contiguous().view(N, C, H, W)

        return out

ShuffleNetV2的主要流程可以简单地描述为以下几个步骤：

1. 输入：输入是一张图像，经过预处理后传递给网络。

2. 特征提取：图像通过一系列卷积层进行特征提取。ShuffleNetV2使用深度可分离卷积来减少参数数量和计算成本，同时保留有效的特征信息。这些卷积操作在不同层级上捕获图像的不同抽象级别的特征。

3. 通道重组：在特征提取过程中，ShuffleNetV2通过通道重组操作，将特征图的通道进行重排，以促进特征之间的信息交流和融合。这有助于提高模型的表达能力和准确性。

4. 多尺度特征融合：为了增强模型对不同尺度下物体的检测和识别能力，ShuffleNetV2可能在网络中引入多个分支或模块来实现多尺度特征融合。这些分支可能具有不同的感受野和分辨率，以捕获不同尺度下的特征信息，并将它们融合在一起以获得更加全面的特征表示。

5. 分类/检测：最后，经过特征提取和融合后的特征被传递给分类器或检测头部，进行图像分类或目标检测任务。对于分类任务，通常会在最后添加全局平均池化层和全连接层来生成类别预测。对于目标检测任务，可能会在特征图上应用卷积层来预测目标的位置和类别。

整个流程中，ShuffleNetV2的关键在于利用深度可分离卷积、通道重组和多尺度特征融合等技术，实现了在保持模型性能的同时降低计算成本和内存占用的目标。

2.2 新增yaml文件

关键步骤二：在下/projects/yolov5-6.1/models下新建文件 yolov5_shuffle.yaml并将下面代码复制进去

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# ShuffleNetV2 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv_maxpool, [24]],    # 0-P2/4

   [-1, 1, ShuffleNetV2_InvertedResidual, [116, 2]], # 1-P3/8
   [-1, 3, ShuffleNetV2_InvertedResidual, [116, 1]], # 2

   [-1, 1, ShuffleNetV2_InvertedResidual, [232, 2]], # 3-P4/16
   [-1, 7, ShuffleNetV2_InvertedResidual, [232, 1]], # 4

   [-1, 1, ShuffleNetV2_InvertedResidual, [464, 2]], # 5-P5/32
   [-1, 3, ShuffleNetV2_InvertedResidual, [464, 1]], # 6

   [-1, 1, SPPF, [1024, 5]],  # 7
  ]

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]], # 8
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 11

   [-1, 1, Conv, [256, 1, 1]], # 12
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 2], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 15 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 12], 1, Concat, [1]], # cat head P4
   [-1, 3, C3, [512, False]],  # 18 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 8], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 21 (P5/32-large)

   [[15, 18, 21], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

温馨提示：本文只是对yolov5l基础上添加swin模块，如果要对yolov8n/l/m/x进行添加则只需要指定对应的depth_multiple 和 width_multiple。

# YOLOv5n
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple
 
# YOLOv5s
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
 
# YOLOv5l 
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
 
# YOLOv5m
depth_multiple: 0.67  # model depth multiple
width_multiple: 0.75  # layer channel multiple
 
# YOLOv5x
depth_multiple: 1.33  # model depth multiple
width_multiple: 1.25  # layer channel multiple

2.3 注册模块

关键步骤三：在yolo.py中注册, 大概在260行左右添加 ‘ShuffleNetV2_InvertedResidual’和‘Conv_maxpool’

2.4 执行程序

在train.py中，将cfg的参数路径设置为yolov5_shuffle.yaml的路径

建议大家写绝对路径，确保一定能找到

🚀运行程序，如果出现下面的内容则说明添加成功🚀

3. 完整代码分享

https://pan.baidu.com/s/16mV10y8Lesm_TCcyvXR9oA?pwd=79es

👆我修改后的代码，提取码: 79es

4.GFLOPs对比

未改进的YOLOv5l的GFLOPs

改进的YOLOv5l的GFLOPs

GFLOPs大约减少三分之二

5. 总结

ShuffleNetV2是一种专注于轻量级设计的神经网络架构，其核心技术包括深度可分离卷积和通道重组，通过这些技术降低了参数数量和计算成本，同时利用多尺度特征融合提高了模型的检测和识别能力。该架构在图像分类和目标检测任务中表现出色，特别适用于资源受限的环境，如移动设备或边缘计算设备。ShuffleNetV2的设计目标在于在保持模型性能的同时降低内存占用，为图像处理任务提供了高效且可行的解决方案。