OpenCV与AI深度学习 | 基于改进YOLOv8的景区行人检测算法

本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。

原文链接:基于改进YOLOv8的景区行人检测算法

作者:贵向泉,刘世清,李立等

来源:《计算机工程》期刊

编辑:陈萍萍的公主@一点人工一点智能

原文:https://www.ecice06.com/CN/rich_html/10.19678/j.issn.1000-3428.0068125

摘要:针对当前景区行人检测具有检测精度低、算法参数量大和现有公开数据集在小目标检测上存在限制等问题,创建TAPDataset行人检测数据集,弥补现有数据集在小目标检测方面的不足,并基于YOLOv8算法,构建一种检测精度高、硬件要求低的新模型YOLOv8-L。首先引入DepthSepConv轻量化卷积模块,降低模型的参数量和计算量。

其次采用BiFormer注意力机制和上采样算子CARAFE,加强模型对图像的语义理解和信息融合能力,提升模型的检测精度。最后增加一层小目标检测层来提取更多的浅层特征,从而有效地改善模型对小目标的检测性能。

在TAPDataset、VOC 2007及TAP+VOC数据集上的实验结果表明,与YOLOv8相比,在FPS基本不变的情况下,在TAPDataset数据集上,模型的参数量减少了18.06%,mAP@0.5提高了5.51%,mAP@0.5∶0.95提高了6.03%;在VOC 2007数据集上,模型的参数量减少了13.6%,mAP@0.5提高了3.96%,mAP@0.5∶0.95提高了6.39%;在TAP+VOC数据集上,模型的参数量减少了14.02%,mAP@0.5提高了4.49%,mAP@0.5∶0.95提高了5.68%。改进算法具有更强的泛化性能,能够更好地适用于景区行人检测任务。

0 引言

行人检测在智慧文旅建设中扮演着重要角色,该技术已广泛应用于智能视频监控和客流统计等领域[1]。景区行人检测利用计算机视觉技术对景区中的视频或图像进行分析,旨在准确识别和跟踪行人。通过实时监测和分析景区内的人员流动,管理人员能够获得关键的数据信息,以便进行人员调度、安全管理和服务优化等方面的决策[2]。

行人检测主要关注单一目标类别的多尺度和遮挡问题,而目标检测则需要处理多个目标类别的多尺度、遮挡和复杂场景问题[3]。早期的行人检测方法主要基于手工设计的特征和传统的机器学习算法,如Histogram of Oriented Gradients(HOG)和线性支持向量机(SVM)[4]。

然而,这些方法在复杂场景下的鲁棒性和准确性上存在一定的限制。随着深度学习的引入,卷积神经网络(CNN)在行人检测任务中取得了突破性的进展。其中,基于区域提议的方法,如R-CNN、Fast R-CNN和Faster R-CNN等,通过使用CNN进行候选框生成和分类取得了较好的性能[5]。

另外,单阶段检测算法也取得了显著进展,如YOLO、SSD和RetinaNet,它们通过直接在图像中预测边界框和类别,实现了实时性和高准确度之间的平衡。近年来,在行人检测领域还涌现出许多改进和优化的方法,如基于注意力机制的方法、轻量化网络设计、多尺度特征融合等。这些方法不断推动行人检测性能和效果的进一步提升[6]。

YOLO是由REDMON等开发的一种端到端的目标检测方法,依据单个神经网络完成检测任务。其通过多次迭代与不断改进来提高性能,这种持续的改进使得YOLO在目标检测领域取得了显著突破,但其在景区行人检测中存在参数量大、对硬件要求高、检测精度低等问题[7]。

为了解决现有公开数据集(如VOC、COCO、MIT行人数据库和USC行人数据库)在小目标检测任务中数据量不够及小目标较少的限制,本文通过云视频和实地采集等方式,在景区环境中收集了大量的多尺度图片数据,共采集到8 450张形状大小不一的图片,并使用Makesense数据集标注工具进行标注,创建了TAPDataset行人检测数据集。该数据集在形状和大小上具有多样性,适用于工程实践中的目标检测任务。

本文研究旨在解决景区行人检测中YOLOv8检测精度较低且参数量较大等问题。首先创建了TAPDataset数据集,并在YOLOv8的基础上,以DepthSepConv作为基本卷积模块,对整个网络进行轻量化处理,提高模型的计算效率和泛化能力;然后引入BiFormer注意力机制,以实现更灵活的计算分配和内容感知;虽后引入轻量化上采样算子CARAFE,在较大的感受野内聚合上下文信息,提高算法的检测速度和检测精度;最后增加一层小目标检测层,将目标检测层由三层变为四层,提升模型对小目标的检测能力。

1 YOLOV8概述

YOLOv8于2023年1月由开发YOLOv5的Ultralytics公司发布。YOLOv8具备了同时实现分类、检测、分割和姿态估计任务的能力。相比之前的版本,YOLOv8采用了无锚框的结构,这使得它的速度更快、准确率更高。此外,YOLOv8是在以前版本的基础上进行改进和增强的,引入了新的功能和改进,以进一步提升性能和灵活性。

为了满足不同需求,根据网络的深度和宽度,将YOLOv8分为YOLOv8-N、YOLOv8-S、YOLOv8-M、YOLOv8-L和YOLOv8-X等不同版本。这些版本在COCO数据集上的性能均优于其他YOLO版本。本文考虑到模型大小的问题,选择了YOLOv8-N作为研究对象。

YOLOv8由输入端、Backone、Neck、Head 4个部分组成,其结构如图 1所示。其中输入端以大小为640×640像素的图像进行输入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值