基于YOLOv4的简易五官识别----深度学习作业

最新推荐文章于 2025-01-26 06:14:10 发布

Borrowing shield

最新推荐文章于 2025-01-26 06:14:10 发布

阅读量897

点赞数 10

CC 4.0 BY-SA版权

文章标签： YOLO 深度学习人工智能 python

本文链接：https://blog.csdn.net/2302_78030781/article/details/138267591

前言

在深度学习的广阔领域中，目标检测无疑是一个至关重要的研究方向。目标检测任务的核心在于准确地识别图像或视频中特定对象的位置和类别，这一技术在计算机视觉应用中占据了举足轻重的地位。而在人脸识别这一细分领域中，五官识别技术更是扮演了至关重要的角色。五官识别不仅关乎到人脸的基础分析，更在表情识别、身份认证、安全监控等多个方面展现了其巨大的应用潜力。而五官识别，顾名思义，就是要从人脸图像中精确地识别出眼睛、鼻子、嘴巴等关键部位。这一技术的实现依赖于深度学习和计算机视觉算法的不断发展。在众多目标检测算法中，YOLO（You Only Look Once）系列模型因其出色的性能和实时性受到了广泛关注。而YOLOv4，作为该系列的最新成员，更是在检测精度和速度上取得了显著的提升，成为了当前目标检测领域的热门选择。基于YOLOv4的简易五官识别技术不仅具有较高的准确性和实时性，而且在实际应用中具有广泛的适用性。随着深度学习技术的不断发展，相信这一技术将在未来的人脸分析、表情识别等领域发挥更加重要的作用。本文将介绍如何使用YOLOv4模型进行简易的五官识别，并阐述其原理和步骤。

一、YoLov4是什么？

YOLOv4是YOLO（You Only Look Once）系列算法的最新版本，通过将目标检测任务转化为一个回归问题，实现了实时目标检测。其原理主要基于卷积神经网络（CNN）构建一个端到端的物体检测模型。它采用多尺度特征和多层次特征融合的方式进行物体检测，从而实现了较高的检测精度和速度。

二、使用步骤

1.所需环境

torch==1.2.0

2.文件下载

训练所需的yolo4_weights.pth可在百度网盘中下载。
链接: https://pan.baidu.com/s/1oXz13QwLx1lnXct538qL2Q
提取码: 16qc
yolo4_weights.pth是coco数据集的权重。
yolo4_voc_weights.pth是voc数据集的权重。
VOC数据集下载地址如下，里面已经包括了训练集、测试集、验证集（与测试集一样），无需再次划分：
链接: https://pan.baidu.com/s/19Mw2u_df_nBzsC2lg20fQA
提取码: j5ge

3.训练步骤(训练自己的数据集）

（1）数据集准备

本文使用VOC格式进行训练，训练前需要自己制作好数据集
训练前将标签文件放在VOCdevkit文件夹下的VOC2007文件夹下的Annotation中。
训练前将图片文件放在VOCdevkit文件夹下的VOC2007文件夹下的JPEGImages中。
具体步骤如下图所示：
在这里插入图片描述

注意：数据集的收集可以从网上保存，我保存的图片格式为".jpg"格式，标片文件的保存格式为".xml"格式。如下图所示

在这里插入图片描述

（2）数据集处理

在完成数据集的收集和整理之后，我们需要使用voc_annotation.py文件来生成训练所需的2007_train.txt和2007_val.txt。为了使其与原内容相似，我们需要修改voc_annotation.py文件中的某些参数。
首先，我们需要修改classes_path参数。这个参数用于指定一个txt文件，其中包含了要进行检测的类别。
由于我训练的是自己收集的数据集，所以我建立一个cls_classes.txt，里面写自己所需要区分的类别。也就是五官：眉毛，眼睛，鼻子，耳朵，嘴巴。建立好的文件应保存在model_data文件夹中（保存标签文件的文件夹中也要有该文件）如图：
在这里插入图片描述

以下是需要修改的voc_annotation.py文件的具体位置：

在这里插入图片描述
将以上内容修改并保存为voc_annotation.py文件并运行voc_annotation.py。运行结果如下：

（3）开始训练数据集

要开始训练自己的数据集，根据数据集的实际情况修改classes_path。确保classes_path指向正确的路径。修改完classes_path后，我们就可以运行train.py开始训练了。在训练过程中，模型会不断地学习数据的特征，通过反向传播和优化算法更新权重。经过多个epoch（即遍历整个数据集的次数）的训练后，模型会生成一组权重文件，通常保存在logs文件夹中。这些权重文件是模型训练成果的体现，可以用于后续的推理和测试。以下是训练结果的截图显示
在这里插入图片描述
注意：训练过程所需要的时间较长，我此次训练花费了将近10个小时的时间，建议大家可以以此作为参考，为自己的训练预存足够的时间。

（4）数据集训练结果预测

对数据集训练完后，要对训练结果进行预测，对本数据集结果预测要用到两个文件（yolo.py和predict.py）
在yolo.py里面修改model_path以及classes_path。
model_path指向训练好的权值文件，在logs文件夹里。
classes_path指向检测类别所对应的txt。
完成修改后就可以运行predict.py进行检测了。运行后输入图片路径即可检测。以下是predict.py运行结果展示图：
在这里插入图片描述
在结果图中输入图片绝对路径即可检测。

（5）数据集训练结果评估

在训练前已经运行过voc_annotation.py文件，代码会自动将数据集划分成训练集、验证集和测试集。如果想要修改测试集的比例，可以修改voc_annotation.py文件下的trainval_percent。trainval_percent用于指定(训练集+验证集)与测试集的比例，默认情况下 (训练集+验证集):测试集 = 9:1。train_percent用于指定(训练集+验证集)中训练集与验证集的比例，默认情况下训练集:验证集 = 9:1。
对训练结果进行预测完后，对本数据集结果预测要进行评估，此时要前往get_map.py文件修改classes_path，classes_path用于指向检测类别所对应的txt，这个txt和训练时的txt一样。评估自己的数据集必须要修改。
在yolo.py里面修改model_path以及classes_path。model_path指向训练好的权值文件，在logs文件夹里。classes_path指向检测类别所对应的txt。
运行get_map.py即可获得评估结果，评估结果会保存在map_out文件夹中。结果如下图所示：
在这里插入图片描述

三、总结

本次实验旨在利用YOLOv4算法进行简易的五官识别任务。实验过程中，我们深入研究了YOLOv4的原理和训练流程，并在自己的数据集上进行了训练和测试。
首先，我们详细分析了YOLOv4的算法原理。该模型基于卷积神经网络构建了一个端到端的物体检测框架，通过多尺度特征融合和一系列优化技术，实现了较高的检测精度和速度。在训练过程中，模型通过反向传播和梯度下降算法不断更新权重，以最小化预测结果与实际标签之间的差异。
在实验开始前，我们准备了包含五官标注信息的数据集，并进行了适当的数据预处理。然后，我们下载了YOLOv4的开源代码，并仔细阅读了train.py中的参数和注释。其中，classes_path参数是实验过程中的一个关键设置。我们根据数据集中的类别信息，创建了一个包含所有五官类别名称的文本文件，并正确设置了classes_path指向该文件的路径。
完成参数设置后，我们开始运行train.py进行模型训练。在训练过程中，我们观察了损失函数的变化情况，并根据需要调整了学习率和其他超参数。经过多个epoch的训练，模型逐渐收敛，并在验证集上表现出了较好的性能。
训练完成后，模型生成了一组权重文件，保存在logs文件夹中。我们使用这些权重文件进行了测试集的推理实验，并计算了模型的准确率、召回率等性能指标。实验结果表明，基于YOLOv4的五官识别模型在测试集上取得了令人满意的结果，能够准确识别出图像中的五官位置。
通过本次实验，我们深入了解了YOLOv4算法的原理和应用，并成功将其应用于五官识别任务。实验结果表明，YOLOv4具有较高的检测精度和实时性能，在五官识别领域具有广阔的应用前景。同时，我们也意识到在实际应用中，还需要进一步优化模型结构和参数设置，以进一步提高模型的性能和泛化能力。