今天看的是《Improved YOLOv8n for Lightweight Ship Detection》。
这里推荐一款看英文文献的阅读器:小绿鲸,翻译非常专业,不像外国人说中文那样别扭。
注册时用我的邀请码还可以获得200M的容量哦:umgp5n
目录
一、摘要
1.1 原文
Aiming at the environments such as ports with dense ship traffic and sea voyages with complex environments, this paper proposes an efficient YOLOv8 ship detection method based on lightweight improvement. Firstly, the CA attention module is added to the original network structure of YOLOv8, which helps the model to perform feature extraction and target localization more accurately; secondly, the DualConv module is introduced to establish a lightweight network, which optimizes the process of information processing and reduces the amount of floating-point computation efficiently; the experimental results show that the lightweight algorithm achieves an accuracy of 98.7%, and at the same time the algorithm has a GFLOPs of 7.5, which is 8.5% lower than the original model, and the Parameters of the model is 2.65M, which is 12% lower than the original model. It can better meet the demand of rapid ship detection in the harbor site and provides an effective solution for real-time monitoring in the maritime field.
1.2 翻译
针对船舶交通密集的港口和环境复杂的海上航行等环境,本文提出了一种基于轻量级改进的高效YOLOv8船舶检测方法。首先,在YOLOv8的原始网络结构中添加了CA注意力模块,这有助于模型更准确地进行特征提取和目标定位;其次,引入DualConv模块建立轻量级网络,优化信息处理过程,有效减少浮点计算量;实验结果表明,轻量级算法的准确率达到98.7%,同时该算法的GFLOPs为7.5,比原始模型低8.5%,模型的参数为2.65M,比原始模式低12%。它可以更好地满足港口现场快速船舶检测的需求,为海事领域的实时监控提供了一种有效的解决方案。
二、介绍
现有yolov8的改进算法较多,但大多模型计算量大,对边缘部署计算设备的硬件要求高。本文提出了一种更快、更轻的船舶检测算法。该算法首先引入CA注意力机制对检测目标进行定位,其次采用DualConv取代普通卷积Conv和C2f模块,减小网络计算量,更好地实现了轻型船舶目标的实时检测。
三、YOLOv8网络结构
YOLOv8主要分为三个部分:骨干网络(backbone)、颈部(Neck)和检测头(Head)。骨干网络负责特征提取,从输入图像中解析提取视觉特征;颈部对来自骨干网络的特征进行整合和优化,并通过特征叠加和精细处理增强特征表征;最终,检测头接受这种优化的特征信息,对物体的类和边界框进行识别和定位。结构如下:
四、改进部分
4.1 CA注意力机制
传统方法在进行全局池化操作时会丢失目标位置信息,故本文引入CA注意力机制解决该问题。
CA(Coordinate Attention)注意力机制就是利用深度神经网络增强空间特征感知的先进技术。核心原理就是嵌入坐标信息,使网络更准确地捕捉和解析空间位置上的相互关系。CA执行流程如下:
- 原始图像沿宽和高两个维度分解为单独的部分,每个部分单独进行全局平均池化,这样就得到了两个方向上的特征表示
- 之后将两个单独池化的特征图进行组合,通过一个卷积核为1*1的卷积层进行处理,进一步细化特征
- 在进行激活函数和归一化处理后,就得到了同时具有方向和位置敏感性的注意力增强特征图。
结构如下:
4.2 DualConv模块
DualConv模块是一种新型的卷积网络组件,专门用于创建更精简和高效的深度学习模型。该结构通过采用3*3和1*1两个卷积核同时对输入特征图进行处理,从而增强网络处理信息的能力和特征提取的效率。其中,3*3的卷积核提取特征图的空间特征,1*1卷积核整合特征并简化模型参数。通过分组的卷积操作,其优化了卷积滤波器的布局,有效减少模型计算量和参数量。
在该模块中,输入和输出特征映射被分成不同的组,每组仅由其相关的卷积核进行处理,简化整个网络的架构。通过限制每组卷积滤波器的作用范围,实现对模型复杂度的有效控制。结构布局如下:
组合卷积核计算量FLOPs计算公式如下:
D0为输出特征图大小,K为卷积核大小,M为输入通道数,N为输出特征图深度,G为卷积组数。
五、实验部分
5.1 实验环境
参数表如下:
5.2 数据集
采用的是公开的船舶数据集SeaShips。数据集划分比例为7:2:1.一共有六个种类:“杂货船”、“渔船”、“矿砂船”、“集装箱船”、“散货船”、“客船”。
5.3 实验结果
一共进行了100次迭代,前五十轮Precision值收敛速度更快,算法模型精度最终达到98.7%。