基于改进YOLOv8的景区行人检测算法

贵向泉, 刘世清, 李立, 秦庆松, 李唐艳. 基于改进YOLOv8的景区行人检测算法[J]. 计算机工程, 2024, 50(7): 342-351. DOI: 10.19678/j.issn.10

原文链接如下:基于改进YOLOv8的景区行人检测算法icon-default.png?t=N7T8https://www.ecice06.com/CN/rich_html/10.19678/j.issn.1000-3428.0068125

该研究的主要贡献

  1. 数据集创新:创建了TAPDataset行人检测数据集,该数据集针对小目标检测进行了优化,弥补了现有公开数据集在小目标检测方面的不足,为行人检测领域提供了更为丰富和实用的数据资源。

  2. 模型轻量化改进:在YOLOv8算法的基础上,引入DepthSepConv轻量化卷积模块,有效降低了模型的参数量和计算量,使得模型在硬件要求较低的环境下仍能保持较高的检测性能。

  3. 注意力机制与上采样算子融合:采用BiFormer注意力机制和CARAFE上采样算子,增强了模型对图像的语义理解和信息融合能力,提高了检测精度。

  4. 小目标检测性能优化:增加了一层专门针对小目标的检测层,以提取更多的浅层特征,有效改善了模型对小目标的检测性能。

  5. 实验验证与泛化性能:在TAPDataset、VOC 2007及TAP+VOC数据集上进行了一系列实验,结果表明,改进后的YOLOv8-L模型在保持FPS基本不变的情况下,参数量显著减少,检测精度得到大幅提升。这表明改进算法具有较强的泛化性能,能够更好地适用于景区行人检测任务。

综上所述,该研究为行人检测领域提供了新的数据集、算法改进和实验验证,对于提升景区行人检测的精度和效率具有重要意义。

关键词

智慧文旅目标检测注意力机制轻量化网络YOLOv8算法

引言

总结了行人检测技术在智慧文旅建设中的重要作用,并回顾了行人检测技术的发展历程。从早期的手工设计特征和传统机器学习算法,如HOG和SVM,到深度学习的引入和卷积神经网络(CNN)在行人检测任务中的突破性进展,再到近年来基于注意力机制、轻量化网络设计和多尺度特征融合等方法的涌现,行人检测技术不断进步。然而,现有的YOLOv8算法在景区行人检测中仍存在参数量大、硬件要求高、检测精度低等问题。

为了解决这些问题,本文提出了以下几个主要研究内容:

  1. 数据集创新:通过云视频和实地采集,创建了一个新的行人检测数据集TAPDataset,该数据集具有多尺度和多样性的特点,专门针对小目标检测进行了优化。

  2. 模型轻量化:在YOLOv8算法的基础上,采用DepthSepConv轻量化卷积模块,减少模型的参数量和计算量,提高计算效率和泛化能力。

  3. 注意力机制与上采样算子:引入BiFormer注意力机制和CARAFE上采样算子,增强模型的语义理解和信息融合能力,提升检测速度和精度。

  4. 小目标检测优化:通过增加一层小目标检测层,改善模型对小目标的检测性能。

综上所述,引言部分为后续的研究内容和方法奠定了基础,指出了研究的重要性和必要性,并概述了本文的研究目标和创新点。

YOLOv8概述

YOLOv8是由Ultralytics公司在2023年1月发布的一种先进的计算机视觉算法,它继承了YOLO系列的特点,并引入了新的功能和改进。YOLOv8具备执行分类、检测、分割和姿态估计等多任务的能力,并且相比之前的版本,它采用了无锚框的结构设计,这使得算法在速度和准确率上都有所提升。

YOLOv8的不同版本:

为了适应不同的应用需求和硬件条件,YOLOv8被分为多个版本,包括YOLOv8-N、YOLOv8-S、YOLOv8-M、YOLOv8-L和YOLOv8-X。这些版本在COCO数据集上的表现均优于之前的YOLO系列版本。考虑到模型大小和计算资源的需求,本文选择了YOLOv8-N作为研究对象。

YOLOv8的架构组成:

YOLOv8的架构主要由四个部分组成:输入端、Backbone、Neck和Head。

  1. 输入端:处理大小为640×640像素的图像输入。
  2. Backbone:在YOLOv5的基础上进行了改进,将第一层卷积从6×6改为3×3,并参考YOLOv7 ELAN的设计思路,将C3模块替换为C2f模块。
  3. Neck移除了1×1卷积的采样层,并用C2f模块替换了C3模块。
  4. Head:采用了解耦头的设计,将分类任务和回归任务分离。

训练过程中的数据增强:

在训练YOLOv8时,使用了Mosaic数据增强技术对图像进行预处理,以提高检测精度。在训练的最后10个Epochs中,关闭了Mosaic数据增强操作,这一策略有助于进一步提升模型的检测精度。

总结:

YOLOv8是一个多功能的计算机视觉算法,通过无锚框设计和架构改进,提高了检测速度和准确率。本文选择了YOLOv8-N作为研究对象,并概述了其架构组成和训练过程中的关键步骤。

Conv模块概述

Conv模块是YOLOv8算法中的一个基本组件,它由二维卷积(Conv2d)批量归一化(BN)非线性激活函数SiLU组成,如图 2所示。这一复合模块在神经网络中起到特征提取的作用。

卷积层的作用:

卷积层通过应用一组可学习的滤波器(卷积核)对输入数据进行卷积运算,从而提取出图像的边缘、形状等特征信息。这些滤波器具有不同的特征提取能力,使得网络能够捕捉到输入数据的多层次特征。

激活函数的作用:

卷积层的输出通过非线性激活函数SiLU进行激活,这样做可以增强网络的表达能力,使得网络能够学习和模拟更复杂的函数。

参数量和计算资源:

尽管Conv模块在特征提取方面非常有效,但其参数量较大,这意味着在训练和推理过程中需要更多的计算资源。

全局上下文理解的限制:

由于卷积操作的局部性质,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值