用YOLOv5模型识别出表情！

最新推荐文章于 2024-05-27 23:03:08 发布

Datawhale

最新推荐文章于 2024-05-27 23:03:08 发布

阅读量1.6k

点赞数 3

文章标签：深度学习分布式存储 cuda 图像识别 cv

本文链接：https://blog.csdn.net/Datawhale/article/details/120030278

版权

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：闫永强，算法工程师，Datawhale成员

本文利用YOLOV5对手势进行训练识别，并识别显示出对应的emoji，如同下图：

本文整体思路如下。提示：本文含完整实践代码，代码较长，建议先看文字部分的实践思路，代码先马后看

一、YOLOV5训练数据集

1. 安装环境依赖

本教程所用环境：YOLOV5版本是V3.1。

通过git clone 将源码下载到本地，通过pip install -r requirements.txt 安装依赖包（其中官方要求python>=3.8 and torch>=1.6）。

我的环境是：系统环境Ubuntu16.04；cuda版本10.2；cudnn版本7.6.5；torch版本1.6.0；python版本3.8

2. 准备手势识别数据集

其中手势数据集已上传至开源数据平台Graviti，包含了完整代码。

手势数据集地址：https://gas.graviti.cn/dataset/datawhale/HandPose?utm_medium=0831datawhale

注：代码在数据地址的讨论区

2.1 数据集的采集以及标注

手势数据采集的代码：

import cv2

def main():
    total_pics = 1000
    cap = cv2.VideoCapture(0)
    
    pic_no = 0
    flag_start_capturing = False
    frames = 0
    
    while True:
        ret,frame = cap.read()
        frame = cv2.flip(frame,1)
        cv2.imwrite("hand_images/" +str(pic_no) +".jpg",frame)
        cv2.imshow("Capturing gesture",frame)
        cv2.waitKey(10)
        pic_no += 1
        if pic_no == total_pics:
            break

main()

在yolov5目录下创建VOC2012文件夹（名字自己定义的），目录结构就是VOC数据集的，对应如下：

VOC2012../Annotations   #这个是存放数据集图片对应的xml文件../images  #这个存放图片的../ImageSets/Main  #这个主要是存放train.txt，test.txt，val.txt和trainval.txt四个文件。里面的内容是训练集、测试集、验证集以及训练验证集的名字（不带扩展后缀名）。

示例：

VOC2012文件夹下内容：

Annotations文件中是xml文件（labelimg标注的）：

images为VOC数据集格式中的JPRGImages：

ImageSets文件中Main子文件夹主要存放训练，测试验证集的划分txt。这个划分通过以下脚本代码生成：

# coding:utf-8

import os
import random
import argparse

parser = argparse.ArgumentParser()
#xml文件的地址，根据自己的数据进行修改 xml一般存放在Annotations下
parser.add_argument('--xml_path', default='C:\\Users\\Lenovo\\Desktop\\hand_datasets\\VOC2012\\Annotations\\', type=str, help='input xml label path')
#数据集的划分，地址选择自己数据下的ImageSets/Main
parser.add_argument('--txt_path', default='C:\\Users\\Lenovo\\Desktop\\hand_datasets\\VOC2012\\ImageSets\\Main\\', type=str, help='output txt label path')
opt = parser.parse_args()

trainval_percent = 1.0
train_percent = 0.99
xmlfilepath = opt.xml_path
txtsavepath = opt.txt_path
total_xml = os.listdir(xmlfilepath)
if not os.path.exists(txtsavepath):
    os.makedirs(txtsavepath)

num = len(total_xml)
list_index = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list_index, tv)
train = random.sample(trainval, tr)

file_trainval = open(txtsavepath + 'trainval.txt', 'w')
file_test = open(txtsavepath + 'test.txt', 'w')
file_train = open(txtsavepath + 'train.txt', 'w')
file_val = open(txtsavepath + 'val.txt', 'w')

for i in list_index:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        file_trainval.write(name)
        if i in train:
            file_train.write(name)
        else:
            file_val.write(name)
    else:
        file_test.write(name)

file_trainval.close()
file_train.close()
file_val.close()
file_test.close()

运行代码在Main文件下生成txt文档如下：