改进Yolov5 | 用 GSConv+Slim Neck 一步步把 Yolov5 提升到极致!!!

69e0549f0d0c62815cf8a3603ef515f3.png

目标检测是计算机视觉中一项艰巨的下游任务。对于车载边缘计算平台,大模型很难达到实时检测的要求。而且,由大量深度可分离卷积层构建的轻量级模型无法达到足够的准确性。因此本文引入了一种新方法 GSConv 来减轻模型的复杂度并保持准确性。GSConv 可以更好地平衡模型的准确性和速度。并且,提供了一种设计范式,Slim-Neck,以实现检测器更高的计算成本效益。在实验中,与原始网络相比,本文方法获得了最先进的结果(例如,SODA10M 在 Tesla T4 上以 ~100FPS 的速度获得了 70.9% mAP0.5)。

1简介

目标检测是无人驾驶汽车所需的基本感知能力。目前,基于深度学习的目标检测算法在该领域占据主导地位。这些算法在检测阶段有两种类型:单阶阶段和两阶段。两阶段检测器在检测小物体方面表现更好,通过稀疏检测的原理可以获得更高的平均精度(mAP),但这些检测器都是以速度为代价的。单阶段检测器在小物体的检测和定位方面不如两阶段检测器有效,但在工作上比后者更快,这对工业来说非常重要。

类脑研究的直观理解是,神经元越多的模型获得的非线性表达能力越强。但不可忽视的是,生物大脑处理信息的强大能力和低能耗远远超出了计算机。无法通过简单地无休止地增加模型参数的数量来构建强大的模型。轻量级设计可以有效缓解现阶段的高计算成本。这个目的主要是通过使用 Depth-wise Separable Convolution (DSC)操作来减少参数和FLOPs的数量来实现的,效果很明显。

但是,DSC 的缺点也很明显:输入图像的通道信息在计算过程中是分离的。

736586f1bb5abe262391ac1dc71f8129.png
图 1

对于自动驾驶汽车,速度与准确性同样重要。通过 GSConv 引入了 Slim-Neck 方法,以减轻模型的复杂度同时可以保持精度。GSConv 更好地平衡了模型的准确性和速度。在图 1 中,在 SODA10M 的无人驾驶数据集上比较了最先进的 Slim-Neck 检测器和原始检测器的速度和准确度。结果证实了该方法的有效性。

d0a9022192f8a1bba500a1efde8f7ac1.png
图2

图2(a)和(b)显示了 DSC 和标准卷积(SC)的计算过程。这种缺陷导致 DSC 的特征提取和融合能力比 SC 低得多。优秀的轻量级作品,如 XceptionMobileNetsShuffleNets,通过 DSC 操作大大提高了检测器的速度。但是当这些模型应用于自动驾驶汽车时,这些模型的较低准确性令人担忧。事实上,这些工作提出了一些方法来缓解 DSC 的这个固有缺陷(这也是一个特性):MobileNets 使用大量的 1×1 密集卷积来融合独立计算的通道信息;ShuffleNets 使用channel shuffle来实现通道信息的交互,而 GhostNet 使用 halved SC 操作来保留通道之间的交互信息。但是,1×1的密集卷积反而占用了更多的计算资源,使用channel shuffle效果仍然没有触及 SC 的结果,而 GhostNet 或多或少又回到了 SC 的路上,影响可能会来从很多方面。

许多轻量级模型使用类似的思维来设计基本架构:从深度神经网络的开始到结束只使用 DSC。但 DSC 的缺陷直接在主干中放大,无论是用于图像分类还是检测。作者相信 SCDSC 可以结合在一起使用。仅通过channel shuffle DSC 的输出通道生成的特征图仍然是“深度分离的”。

0f5d0afb39b4871b0d00c63525e4e270.png
图 3

为了使 DSC 的输出尽可能接近 SC,引入了一种新方法——GSConv。如图 3 所示,使用 shuffleSC 生成的信息(密集卷积操作)渗透到 DSC 生成的信息的每个部分。这种方法允许来自 SC 的信息完全混合到 DSC 的输出中,没有花里胡哨的东西。

be9d1e7c5dea02d8edd31d4aa5ac5b5c.png
图 4

图 4 显示了 SCDSCGSConv 的可视化结果。GSConv 的特征图与 SC 的相似性明显高于 DSCSC 的相似。当在 Backbone 使用 SC,在Neck使用 GSConvslim-neck)时,模型的准确率非常接近原始;如果添加一些技巧,模型的准确性和速度就会超过原始模型。采用 GSConv 方法的Slim-Neck可最大限度地减少 DSC 缺陷对模型的负面影响,并有效利用 DSC 的优势。

主要贡献可以总结如下:

  1. 引入了一种新方法 GSConv 来代替 SC 操作。该方法使卷积计算的输出尽可能接近 SC,同时降低计算成本;

  2. 为自动驾驶汽车的检测器架构提供了一种新的设计范式,即带有标准 BackboneSlim-Neck 设计;

  3. 验证了不同 Trick 的有效性,可以作为该领域研究的参考。

2本文方法

2.1 为什么要在Neck中使用GSConv

为了加速预测的计算,CNN 中的馈送图像几乎必须在 Backbone 中经历类似的转换过程:空间信息逐步向通道传输。并且每次特征图的空间(宽度和高度)压缩和通道扩展都会导致语义信息的部分丢失。密集卷积计算最大限度地保留了每个通道之间的隐藏连接,而稀疏卷积则完全切断了这些连接。

GSConv 尽可能地保留这些连接。但是如果在模型的所有阶段都使用它,模型的网络层会更深,深层会加剧对数据流的阻力,显著增加推理时间。当这些特征图走到 Neck 时,它们已经变得细长(通道维度达到最大,宽高维度达到最小),不再需要进行变换。因此,更好的选择是仅在 Neck 使用 GSConvSlim-Neck + 标准Backbone)。在这个阶段,使用 GSConv 处理 concatenated feature maps 刚刚好:冗余重复信息少,不需要压缩,注意力模块效果更好,例如 SPPCA

2.2 Slim-Neck

作者研究了增强 CNN 学习能力的通用方法,例如 DensNetVoVNetCSPNet,然后根据这些方法的理论设计了 Slim-Neck 结构。

1、Slim-Neck中的模块

首先,使用轻量级卷积方法 GSConv 来代替 SC。其计算成本约为 SC 的60%~70%,但其对模型学习能力的贡献与后者不相上下。然后,在 GSConv 的基础上继续引入 GSbottleneck,图5(a)展示了 GSbottleneck 模块的结构。

3b1432d7f1e0cbf1f599d0355fe45856.png
图5

同样,使用一次性聚合方法来设计跨级部分网络 (GSCSP) 模块 VoV-GSCSPVoV-GSCSP 模块降低了计算和网络结构的复杂性,但保持了足够的精度。图 5 (b) 显示了 VoV-GSCSP 的结构。值得注意的是,如果我们使用 VoV-GSCSP 代替 NeckCSP,其中 CSP 层由标准卷积组成,FLOPs 将平均比后者减少 15.72%。

最后,需要灵活地使用3个模块,GSConvGSbottleneckVoV-GSCSP

2、Slim-Neck针对YOLO系列的设计

YOLO 系列检测器由于检测效率高,在行业中应用更为广泛。这里使用 slim-neck 的模块来改造 Scaled-YOLOv4YOLOv5Neck 层。图 6 和图 7 显示了2种 slim-neck 架构。

6610e02c21207cb904f66e0b03fc6d3d.png
图 6
3346a3a6b6331a2661371848878ef6fe.png
图 7
3、免费的改进Tricks

可以在基于 CNNs 的检测器中使用一些局部特征增强方法,结构简单,计算成本低。这些增强方法,注意力机制,可以显著提高模型精度,而且比Neck 简单得多。这些方法包括作用于通道信息或空间信息。SPP 专注于空间信息,它由4个并行分支连接:3个最大池操作(kernel-size为 5×5、9×9 和 13×13)和输入的 shortcut 方式。它用于通过合并输入的局部和全局特征来解决对象尺度变化过大的问题。YOLOv5 作者的 SPP 改进模块 SPPF 提高了计算效率。该效率 增加了近 277.8%。通式为:

4911a93d37e97497e171fec6c74b4956.png

其中,是 SPPF 模块中第i个分支的最大池化的kernel-size。

c5ff9be4e0d0edb051916fc2e0339021.png
图 8

图 8 (a) 和 (b) 显示了 SPPSPPF 的结构。SE是一个通道注意力模块,包括两个操作过程:squeezeexcitation。该模块允许网络更多地关注信息量更大的特征通道,而否定信息量较少的特征通道。CBAM 是一个空间通道注意力机制模块。CA 模块是一种新的解决方案,可以避免全局池化操作导致的位置信息丢失:将注意力分别放在宽度和高度两个维度上,以有效利用输入特征图的空间坐标信息。图9(a)、(b)和(c) 显示了 SECBAMCA 模块的结构。

97f0c76dfeb839cdb89236c9787ae6bd.png
图 9
4、损失和激活函数

IoU 损失对于基于深度学习的检测器具有很大的价值。它使预测边界框回归的位置更加准确。随着研究的不断发展,许多研究人员已经提出了更高级的 IoU 损失函数,例如 GIoUDIoUCIoU 和最新的 EIoU。5个损失函数定义如下:

6bca3c6a606d23601c56ec30244298aa.png

其中参数“A”和“B”表示Ground truth边界框的面积和预测边界框的面积;参数“C”表示Ground truth边界框和预测边界框的最小包围框的面积;参数“d”表示封闭框的对角线顶点的欧式距离;参数“ρ”表示Ground truth边界框和预测边界框质心的欧式距离;参数“α”是权衡的指标,参数“v”是评价Ground truth边界框和预测边界框长宽比一致性的指标。

CIoU loss是目前Anchor-based检测器中使用最广泛的损失函数,但CIoU loss仍然存在缺陷:

5540642765dd383e8d0136ae6d4554f2.png

其中“δv /δw”是“v”相对于“w”的梯度,“δv/δh”是“v”相对于“h”的梯度。

c99044a565e37f54ad640405b3472d8b.png
图 10

根据 CIoU 损失的定义,如果

402 Payment Required

CIoU 损失将退化为 DIoU损失,即 CIoU损失中添加的惩罚项的相对比例(αv)将不起作用。此外,w和h的梯度符号相反。

因此,这两个变量(w或h)只能在同一方向上更新,同时增加或减少。这不符合实际应用场景,尤其是当 且 $hw^{gt}且h>h^{gt}$ 时。EIoU loss没有遇到这样的问题,它直接使用预测边界框的w和h独立作为惩罚项,而不是w和h的比值。图10是这些损失函数的不同评估指标的3个示例。

在深度网络上,使用 SwishMish 的模型的准确性和训练稳定性通常比 ReLU 差。SwishMish 都具有无上界和下界、平滑和非单调的特性。它们定义如下:

38c824bf8392bcafea659ab5e510d5ec.png

在更深的网络上,Mish 的模型准确度略好于 Swish,尽管实际上2条激活函数曲线非常接近。与 Swish 相比,Mish 由于计算成本的增加而消耗更多的训练时间。

3实验

3.1 Trick消融实验

a3afd0f29606a429ab335c610522bb6e.png 0c238023afa975ab865569046fd84881.png

3.2 损失函数对比

423f34966e8639c905091a5df8a1eb5f.png b9edbf110fe3ac82241c9cae96516b10.png

3.3 Yolo改进

f24c43b62083a86f12ca406da319db7c.png 0e2aa135eeb097b844fc2ece692951df.png 19a0e7b0b79dcd56e03bf0bea62d5395.png

3.4 可视化结果对比

68e5620ae7d3441a68150bf1cc75c1a3.png

4参考

[1].Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles

——The  End——

bb46365ae13a2957ab42eb86ffefc16a.gif

分享

收藏

点赞

在看

69adf501558fd36c7c5cd4a8e5c5e2fa.gif

  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: gsconv slim-neck 是一种新型的神经网络结构,它可以有效地减轻模型的复杂度,同时提升精度。 一般情况下,神经网络的复杂度越高,模型就越庞大、计算量就越大,同时也越容易出现过拟合的问题。针对这个问题,gsconv slim-neck 结构主要通过两种方式来降低神经网络的复杂度: 一是采用深度可分离卷积层代替传统的卷积层,减少神经网络的参数量和计算量,从而提高模型的训练和运行效率。 二是在神经网络的设计中引入了一种“瓶颈结构”,即在模型的中间位置设置一个较小的通道,保证了更加有效地信息传递和特征提取,同时也带来了更小的计算和存储开销。 此外,gsconv slim-neck 还采用了立体空洞卷积等高阶方法,进一步提高了模型的特征提取能力和准确性,并在训练数据规模较小的情况下表现出了更强的鲁棒性。 综上,gsconv slim-neck 在保证模型准确性的基础上,有效地减轻了模型的复杂度,提高了神经网络的效率,为神经网络的设计和应用提供了新的思路和方法。 ### 回答2: gsconv slim-neck是一种神经网络结构优化方法,旨在减轻模型的复杂度和提高精度。它采用了两种优化策略:gsconvslim-neck。通过这两种策略的结合运用,可以使神经网络模型更加轻量化和高效,有效避免过拟合等问题,从而提高模型的性能表现。 首先,gsconv(Global Softmax Convolution)是一种结合全局softmax和卷积操作的卷积神经网络(CNN)模块,它可以有效地将特征图的维度降低。具体来说,在该模块中,全局softmax操作会将每个特征图通道的所有值归一化,从而得到每个通道上的注意力分布权重。然后,将该权重作为卷积核来执行卷积操作,将特征图的维度降低到1,从而减少模型中的参数数量和计算复杂度,提高模型的计算效率。 其次,slim-neck是一种细颈设计(Bottlenect)结构,可以有效地缩小神经网络模型的通道数,减少网络所需的存储空间和计算资源,并且有利于控制过拟合。在该结构中,通过将一部分卷积层的输出通道数降到较低的水平来压缩特征图,然后再使用较小的通道数进行卷积操作,从而减少了模型的参数数量和计算量。 综合gsconvslim-neck策略,gsconv slim-neck 能够在保持精度不变的情况下,大幅度减小神经网络模型的复杂度。通过在CNN模型的不同层次中结合这两种优化策略,可以提高模型的泛化能力和准确性,并且在实际应用中具有更优的性能表现。因此,gsconv slim-neck 作为一种高效的神经网络优化方法,在图像识别、语音识别、自然语言处理等领域中具有广泛的应用前景。 ### 回答3: gsconv slim-neck是一种卷积神经网络模型压缩技术,旨在减轻模型的复杂度同时提升精度。相对于传统的模型压缩技术,如权重剪枝和量化,gsconv slim-neck技术可以更好地完成这个任务。 gsconv slim-neck技术的主要原理是使用一种特殊的卷积操作方式,即group sparse convolution,来减少模型中神经元的数量并提高精度。该操作将神经元分为多个group,其中每个group包含一些神经元,这些神经元权重之间是高度相关的。在进行卷积操作时,只有少数group参与计算,因此模型的复杂度得以减少。 与此同时,gsconv slim-neck技术还使用了一种称为neck卷积的操作,可以将一个大的卷积核分解为多个小的卷积核,从而进一步提高了模型的精度。这种操作类似于一种特殊的卷积神经网络结构——Inception,但是更加高效。 总之,gsconv slim-neck技术通过使用group sparse convolution和neck卷积两种技术手段,成功地实现了模型压缩和精度提升的目标。这项技术在计算机视觉等领域得到了广泛的应用,可以为实际应用场景提供更加高效和准确的神经网络模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值