【发疯毕设日志day7】hagrid_dataset_512数据集作者论文原文逐句翻译——大疆tello手势识别起飞——更换成手势数据集hagrid_dataset_512

叫我Python小朋友

已于 2024-03-23 14:07:11 修改

阅读量1.1k

点赞数 23

文章标签：人工智能深度学习 database

于 2024-03-23 12:44:02 首次发布

本文链接：https://blog.csdn.net/pythonAk47vt/article/details/136932546

版权

本文介绍了一个大规模的手势识别数据集HaGRID，旨在改善设备交互和视频会议体验。HaGRID包含554,800张图像，用于手部检测和手势分类任务，强调多样性和场景的异质性。实验表明，HaGRID在提高模型性能和处理动态手势方面具有优势，可作为预训练模型的数据源。" 112299808,7956711,京东茅台抢购脚本：Python实现保姆级教程,"['Python', '京东开发', '自动化工具', '抢购脚本']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文原文：：：：2206.08219.pdf (arxiv.org)https://arxiv.org/pdf/2206.08219.pdf

摘要

本文介绍了一个庞大的手势识别数据集——海格（HAnd Gestrue Recognition Image dataset），以简历一个手势识别（HGR）系统，专注于与设备的交互管理。这就是为什么所选的18个手势都呗赋予了符号学功能，可以被解释为一个特定的动作。虽然这些手势是静态的，但是他们还是被选中了，尤其是因为他们能够设计出多种动态手势。它使训练好的模型，不仅能识别 "喜欢 "和 "停止 "等静态手势，还能识别 "轻扫 "和 "拖放 "等动态手势。HaGRID 包含 554,800 张图像和带有手势标签的边界框注释，可用于解决手部检测和手势分类任务。其他数据集的背景和研究对象的可变性较低，这也是我们创建不受这些限制的数据集的原因。利用众包平台，我们收集到了 37,583 个拍摄对象在至少同样多的场景中拍摄的样本，拍摄对象与相机之间的距离从 0.5 米到 4 米不等，拍摄条件也各不相同。在消融研究实验中评估了多样性特征的影响。此外，我们还展示了 HaGRID 在 HGR 任务中用于预训练模型的能力。HaGRID 和预训练模型可公开获取。

1. Introduction（简介）

手势在人类交流中发挥着至关重要的作用。手势可以在情感上强化语句，甚至能完全替代语句。由于人们在现实生活中普遍使用手势，因此在汽车领域[27]、[26]、家庭自动化系统[3]、多媒体应用、各种视频/流媒体平台（Zoom、Skype、Discord、Jazz 等）以及其他领域[10]、[5]，构建 HGR 系统可以改善用户体验并加快流程。此外，该系统还可以成为虚拟助手或服务的一部分，为听力和语言障碍的手语用户提供服务[9], [24] 。

我们研究的主要目的是建立 HGR 系统，以便在带有虚拟助手的家庭自动化设备和视频会议服务 Jazz5 中实施。首先，这套手势必须直观[30]且简单明了，以便系统用户能够记住它们，进行舒适的交互。

此外，在设计 HGR 系统时，还应配上适合控制该系统的手势，以及 "fergotic "功能[8]。在我们的例子中，语义手势的目的是人与计算机之间共享信息，以获得系统的响应，可以是静态的，也可以是动态的。我们也注意到了其他姿态识别使用者的体验。例如，节奏舞者使用我们的设备时候，需要识别到画面中的双手，这在box markup当中是不可能的。此外，在极端光照和被摄体与摄像机距离较大等挑战性条件下，边界框标注比关键点标注更稳定。

在本文的第 5 部分，我们提供了一组数据集消融实验，以探索数据集特征对作为分类和检测问题的 HGR 解算结果的影响程度。此外，我们还通过实验证明，HaGRID 可以作为预训练 HGR 模型的充分数据集，并进行了如下微调。

2.Related Work（相关工作）

2.1. Hand Gesture Datasets

至少有50个与手部动作相关的数据集，这些数据集大体上可以分为三类：手语、旗语、和操作手势。第一类——手语，第一组数据集提出了复杂的动态手势，这些手势更适用于其原始目的，而对于我们要求直接动作的目标来说则是多余的。后两组数据应用于家庭自动化系统和人机交互，并相应地发挥了符号学和人机工程学的作用。由于我们的目标是建立一个以符号作用为主的 HGR 系统，仅使用启发式方法添加操作性手势，因此本节仅对具有静态手势的数据集进行回顾。

由于 HGR 系统的用户可能会在距离设备较远的地方显示手势，因此模型需要捕捉整个画面，并在其中搜索人的手。然而，一些包含静态手势的数据集是为独立于人的系统设计的，包含的样本中没有人体，只有手的部分，即经过裁剪的手部图像 [16] [18]，这就是为什么它们不适合我们的原因。静态手势数据集经常使用以下标记类型或其组合进行标记：类别标签、边界框、关键点和分割标记。

我们需要在multiple-hand画面上无差错地工作，因此只有类别标记是不够的。分割掩码是多余的，不适合这项任务，因为它们无法很好地对与手势如此相似的物体进行分类，而关键点则无法使用，因为它们在长距离内会粘连在一起。据我们所知，目前仅有 4 个数据集可用于带有背景和适当注释的静态手势识别，包括 HANDS [25]、SHAPES [2]、OUHANDS [22] 和 LaRED [13]。

它们的区别在于样本数量、图像分辨率、类别数量、负样本的存在、场景的同质性以及摄像机与每个被摄体之间的距离。SHAPE 和 OUHANDS 用边界框和分割掩码标记；LaRED 仅用掩码标记，而 HANDS 仅用边界框标记,上述数据集不适合用于构建我们的 HGR 系统，原因是场景和被摄体等特征的异质性不足&

最低0.47元/天解锁文章