摘要
手势识别是人机交互领域的重要研究方向,具有广泛的应用前景。本文提出了一种基于深度学习的手势识别系统,专注于识别三种基本手势:拳头(fist)、手掌(palm)和点赞(thumbs up)。系统采用改进的YOLOv5模型进行实时手势检测,并结合自定义卷积神经网络进行精细分类。我们整合了EgoHands和HaGRID两个公开数据集,构建了包含超过50,000张图像的综合训练集。实验结果表明,我们的系统在测试集上达到了96.7%的准确率,且能够在普通消费级硬件上实现实时处理(30FPS)。本文详细介绍了数据预处理、模型架构、训练策略以及基于PyQt5的用户界面实现,并提供了完整的代码实现。
关键词:手势识别;深度学习;YOLOv5;EgoHands;HaGRID;人机交互
1. 引言
手势识别技术作为人机交互的重要分支,近年来随着计算机视觉和深度学习的发展取得了显著进展。与传统的基于穿戴设备的手势识别相比,基于视觉的方法具有非接触、低成本和高可用性等优势,使其在智能家居、虚拟现实、医疗辅助和车载系统等领域展现出广阔的应用前景。
本文聚焦于三种基础但极具代表性的手势:拳头(fist)、手掌(palm)和点赞(thumbs up)。这些手势在日常交流中频繁使用,具有明确的语义含义。拳头通常表示力量或确认,手掌可用于