基于YOLO V5的街景人车检测研究

01图灵科技

已于 2024-09-02 17:44:26 修改

阅读量445

点赞数

分类专栏：深度学习 python 大数据文章标签： YOLO

于 2023-10-10 15:11:08 首次发布

本文链接：https://blog.csdn.net/m0_73485263/article/details/133747186

版权

python 同时被 3 个专栏收录

35 篇文章

订阅专栏

深度学习

25 篇文章

订阅专栏

大数据

14 篇文章

订阅专栏

收藏和点赞，您的关注是我创作的动力

文章目录

概要

一、研究背景与意义
1 研究内容
2 研究方法

二、YOLO v5算法模型
2.1 YOLO 模型
Fig. 1 YOLO Network Structure

三、系统实现
结论

六、目录

概要

针对城市街道景物的调查中，街道景物的环境复杂多变，在提取到的街景图片中敏感信息的分布不均匀等，所以依靠人的视觉来对这方面的信息进行识别并进行人为标注将会耗费大量的人力和时间开销。本论文为了实现对街道景物等目标的检测，通过YOLO V5模型研究基于视觉的街道景物中的敏感信息的物体的检测。本论文首先介绍YOLO系列神经网络的起源和概况，再对国内外这方面内容的研究做一些概括；接下来介绍通过YOLO V5对街景图片中车辆、人物等信息的识别的训练结果进行展示和数据的一些对比，最后是对本次实验的概括总结并对YOLO V5的优点进行了针对性的陈述。通过本文的研究结果发现，使用YOLO V5进行目标检测能达到比较好的效果，并且由于YOLO系列神经网络的逐步发展，YOLO V5的配置以及使用也达到轻量级别，其训练权重文件非常之小，使得其可以搭载在配置更低的移动设备上。为了实现对街道景物中的人物和车辆的检测任务，采用YOLO V5网络作为街景图像中人物和车辆检测的模型。首先进行模型训练，训练好的模型能够提取到数据集图片中的特征、位置等信息，实现对街道景物中人物和车辆的检测。在进行测试后，基于YOLO V5的分类检测模型可以有效识别图片中人物和车辆等信息，检测mAP值为98.34%，测试精度为94.67%。目标检测速度为6.67fps。实验结果表明，基于YOLO V5网络的分类检测模型在不同视角等条件下，检测准确率高，鲁棒性好、计算速度快。
关键字：深度学习；神经网络；YOLO V5网络；目标识别；街景图像

一、研究背景与意义

　城市街景图像中目标检测的研究内容很多，其中人和车辆是街景图像的主要组成部分。城市街景中人车的检测已成为提高城市治理能力的重要组成部分，对提高城市质量起着非常重要的作用。目前在街景图像中进行人物和车辆检测要达到比较好的效果仍然存在一定的问题，具体在街景图像中人物和车辆的定位中的问题有：1.街景图像中存在较复杂的背景。相比于其他的图像，街景图像中存在许多其他的目标，如人物、车辆、建筑和交通指示灯等，于是在训练过程中难免会出现失配的现象。2.街景图像中存在的目标尺寸大小不一。在复杂场景下，人物和车辆的检测面临着尺度变化以及外观光线的变化，甚至存在遮挡的情况。这些因素将会在一定程度上影响目标检测的精度。
　　基于深度学习的目标检测算法在识别精度和速度上均优于传统的目标检测算法。基于以上研究背景，本文以城市街景图像为研究对象，采用YOLO V5卷积神经网络对图像中的人和车辆进行识别。它是为了解决复杂背景、光线变化和遮挡造成的检测精度低的问题。

1 研究内容

本文的研究内容是利用YOLO V5模型实现对街景图像中的人物和车辆进行检测。经过整理资料和目前研究的具体现状来看，要解决上述内容中的问题，本设计需要实现以下部分内容：采集街景图像数据集，通过给出的街景信息图像对图像中的车辆和人物进行检测，对街景图像中的人物和车辆进行检测的流程便是利用YOLO V5卷积神经网络进行训练、测试等，通过不断调整训练参数和每一次的实验结果来对比获得近似最优的收敛结果，以此来达到检测的目的。

2 研究方法

在理论研究方面，结合本文所使用的YOLO V5网络模型，找到合适的结构对需求进行分析比对，以此判断是否能够满足目的，并且再次明确需要做出何种修改。在代码编写以及实验处理上，使用python语言、Anaconda平台以及YOLO V5模型编写出街景图像中物体检测的代码并完成数据处理。再此基础上，在经过对神经网络的训练调整，来记录过程中的预测与识别准确率数据，溯回对网络中的超参数进行调整并多次训练直到达到目标评判标准。

二、YOLO v5算法模型

　YOLO V5模型与V4的模型有较多相似之处，但也存在改进的地方。YOLO V5模型可以分为输入端、Backbone、Neck和Output(或Prediction)四个部分。YOLO V5网络分为四个不同的版本，分别为YOLO V5s、YOLO V5m、YOLO V5l和YOLO V5x，其中YOLO V5s网络的权重最小，速度最少，AP精度也是最低，可以搭载在配置更低的移动设备上，这也是轻量级YOLO V5s的好处之一，而其他另外三个版本的网络则在此基础上，不断的对网络进行加深加宽，所取得的实验精度也是逐渐递增，但是在速度性能上也会有更大的消耗。
　　YOLO V5网络结构在其Input层采用了“Mosaic数据增强算法”和“锚框的自适应计算”。在Backbone层采用了Focus和CSP相结合的结构。Neck层中采用了FPN和PAN组合的结构。在Prediction中使用了GIOU_Loss作为度量单位。

2.1 YOLO 模型

YOLO是通过单一的CNN模块来实现的，该网络可以实现由端到端的目标识别以及分类任务。该网络模型最大的特点是将物体检测的任务当作回归问题来进行求解，也就是说当你将一张图片作为输入到一个深度卷积神经网络中，你可以直接得到对该图片中的待检测的目标和类别。
　　YOLO的网络结构非常简单，由24个卷积层(Convolution Layer)、4个池化层(Pooling Layer)以及2个全连接层(Fully Connected Layer)组成，其网络结构如图1所示。
　　在这里插入图片描述

图1 YOLO网络结构

Fig. 1 YOLO Network Structure

在YOLO网络中，卷积运算只对图像的局部区域起作用，卷积计算是通过设置卷积核的大小来检查图像的局部区域，根据计算结果来获得图像的特征信息，从而进行对图像的特征提取。在卷积操作之前，或者说在输入之前，可以根据实际需要，利用特定的图像处理算法对现有需要进行输入的图像进行特定处理，如反转、降噪等，以达到卷积神经网络的输入要求。汇合层实际上是一种“降采样”操作，这类操作可以达到特征不变性、特征降维以及在一定程度上防止过拟合以便优化的效果。全连接层在整个卷积神经网络中起着“分类器”的作用。该层是用来对类别的概率值以及图像的位置进行预测。图2是YOLO算法的流程。
　　在这里插入图片描述

图2 YOLO算法流程

三、系统实现

在存在有不同视角，不同背景以及不同尺度和遮挡的图像中对训练好的YOLO V5s模型及进行实际测试。实验结果表明，在不用的条件下，YOLO V5网络模型都能对人物、车辆等街道景物进行识别并能够得到很好的结果。在光线视野较好的图像中，整体的检测置信度会较光线视野较差的图像的结果好，并且在物体有部分遮挡的情况下，物体对象所能够识别出得到的概率会有所下降。在上文提到的YOLO V5模型中采取的nms非极大值抑制方法可以提高物体识别的准确率，在以下图像中，存在有许多带有被遮挡部分的物体，但是在YOLO V5网络模型中，大大增加了遮挡物
的识别精度，在以下测试图像中可以看到许多重叠的锚框。以下是部分检测结果的展示。
在这里插入图片描述

图12 测试结果
Fig. 12 Testing Results

结论

　　为了实现对街景图像中的人物和车辆的检测任务，基于YOLO V5网络模型在Cityscapes数据集上进行训练得到训练权重文件，并基于此对测试集中的图像数据进行测试也达到了较好的效果。本次物体识别和分类的网络参数较少，可以从图像中提取丰富的特征信息。并且本次实验表明，基于YOLO V5的物体识别与分类网络模型具有较好的检测精度，并且训练时收敛较快，体积小且鲁棒性较好，进而能够大大降低对街道景物中人物和车辆的检测的难度和成本。
　　在进行本次实验时，首先对YOLO模型的各个模块加以了解，并在此基础上利用现有的容量较小的数据集进行测试，来搭建好YOLO V5所需的基本环境。在测试完成后，由于个人笔记本电脑的配置有限，在对模型进行帧数测试时，并没有取得理想中的效果，所得到的帧数只有6.67FPS。
　　YOLO V5卷积神经网络具有较高的识别准确率，如今在各类目标检测任务上都有更加广泛的应用。本次实验设计也让我对YOLO V5网络模型有了更加深入的认识。随着计算机视觉领域算法的不断发展，越来越多的对于模型改进的建议以及成型的算法被提出。通过本次进行的实验，对YOLO V5的代码以及运行方式也有了一定的了解，在实验中，可以通过控制不同的参数变量可以实现对训练结果的不同收敛程度，在这种进行对比的过程中，可以近似的找出该网络模型在街景图像中的目标检测任务上的最优结果。
　　回顾本次实验的始末，加上阅读的其他的参考文献以及参考书籍等，我了解到更多的深度学习算法以及将卷积神经网络应用在解决目标检测和分类任务上的基本步骤和方法，以及在计算机视觉领域中对图像预处理的不同方
式。

六、目录

目录
摘要 1
ABSTRACT 2
第1章绪论 3
1.1 研究背景 3
1.2 国内外进展 4
1.2.1 目标检测算法 4
1.2.2 车辆检测算法 5
1.2.3 深度学习 6
1.3 研究内容和论文结构 6
第2章深度学习与卷积神经网络 8
2.1 深度学习与卷积神经网络中的基本概念 8
2.1.1 卷积神经网络的基本结构 8
2.1.2 深度学习中的训练与测试方法 11
2.2 经典卷积网络模型 14
2.2.1 VGG网络 14
2.2.2 GoogLeNet网络 14
2.2.3 dropout与批量归一化 16
2.3 本章小结 16
第3章基于Caffe框架的车辆检测算法 17
3.1 目标检测中的基本概念 17
3.2 Caffe框架 18
3.3 YOLO算法 19
3.4 Faster R-CNN算法 21
3.5 本章小结 23
第4章实验仿真与性能分析 24
4.1 实验准备 24
4.1.1 实验环境 24
4.1.2 数据集准备 24
4.2 YOLO算法实现车辆检测 25
4.3 Faster R-CNN算法实现车辆检测 27
4.4 本章小结 29
第5章总结与展望 31
5.1 本文总结 31
5.2 工作展望 31
参考文献 33
致谢 35