【发疯毕设日志day7】hagrid_dataset_512数据集作者论文原文逐句翻译——大疆tello手势识别起飞——更换成手势数据集hagrid_dataset_512

论文原文::::2206.08219.pdf (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/pdf/2206.08219.pdf

摘要

          本文介绍了一个庞大的手势识别数据集——海格(HAnd Gestrue Recognition Image dataset),以简历一个手势识别(HGR)系统,专注于与设备的交互管理。这就是为什么所选的18个手势都呗赋予了符号学功能,可以被解释为一个特定的动作。虽然这些手势是静态的,但是他们还是被选中了,尤其是因为他们能够设计出多种动态手势。它使训练好的模型,不仅能识别 "喜欢 "和 "停止 "等静态手势,还能识别 "轻扫 "和 "拖放 "等动态手势。HaGRID 包含 554,800 张图像和带有手势标签的边界框注释,可用于解决手部检测和手势分类任务。其他数据集的背景和研究对象的可变性较低,这也是我们创建不受这些限制的数据集的原因。利用众包平台,我们收集到了 37,583 个拍摄对象在至少同样多的场景中拍摄的样本,拍摄对象与相机之间的距离从 0.5 米到 4 米不等,拍摄条件也各不相同。在消融研究实验中评估了多样性特征的影响。此外,我们还展示了 HaGRID 在 HGR 任务中用于预训练模型的能力。HaGRID 和预训练模型可公开获取。

1. Introduction(简介)

手势在人类交流中发挥着至关重要的作用。手势可以在情感上强化语句,甚至能完全替代语句。由于人们在现实生活中普遍使用手势,因此在汽车领域[27]、[26]、家庭自动化系统[3]、多媒体应用、各种视频/流媒体平台(Zoom、Skype、Discord、Jazz 等)以及其他领域[10]、[5],构建 HGR 系统可以改善用户体验并加快流程。此外,该系统还可以成为虚拟助手或服务的一部分,为听力和语言障碍的手语用户提供服务[9], [24] 。

我们研究的主要目的是建立 HGR 系统,以便在带有虚拟助手的家庭自动化设备和视频会议服务 Jazz5 中实施。首先,这套手势必须直观[30]且简单明了,以便系统用户能够记住它们,进行舒适的交互。

此外,在设计 HGR 系统时,还应配上适合控制该系统的手势,以及 "fergotic "功能[8]。在我们的例子中,语义手势的目的是人与计算机之间共享信息,以获得系统的响应,可以是静态的,也可以是动态的。我们也注意到了其他姿态识别使用者的体验。例如,节奏舞者使用我们的设备时候,需要识别到画面中的双手,这在box markup当中是不可能的。此外,在极端光照和被摄体与摄像机距离较大等挑战性条件下,边界框标注比关键点标注更稳定。

在本文的第 5 部分,我们提供了一组数据集消融实验,以探索数据集特征对作为分类和检测问题的 HGR 解算结果的影响程度。此外,我们还通过实验证明,HaGRID 可以作为预训练 HGR 模型的充分数据集,并进行了如下微调。

2.Related Work(相关工作)

2.1. Hand Gesture Datasets

至少有50个与手部动作相关的数据集,这些数据集大体上可以分为三类:手语、旗语、和操作手势。第一类——手语,第一组数据集提出了复杂的动态手势,这些手势更适用于其原始目的,而对于我们要求直接动作的目标来说则是多余的。后两组数据应用于家庭自动化系统和人机交互,并相应地发挥了符号学和人机工程学的作用。 由于我们的目标是建立一个以符号作用为主的 HGR 系统,仅使用启发式方法添加操作性手势,因此本节仅对具有静态手势的数据集进行回顾。

由于 HGR 系统的用户可能会在距离设备较远的地方显示手势,因此模型需要捕捉整个画面,并在其中搜索人的手。然而,一些包含静态手势的数据集是为独立于人的系统设计的,包含的样本中没有人体,只有手的部分,即经过裁剪的手部图像 [16] [18],这就是为什么它们不适合我们的原因。静态手势数据集经常使用以下标记类型或其组合进行标记:类别标签、边界框、关键点和分割标记。

我们需要在multiple-hand画面上无差错地工作,因此只有类别标记是不够的。分割掩码是多余的,不适合这项任务,因为它们无法很好地对与手势如此相似的物体进行分类,而关键点则无法使用,因为它们在长距离内会粘连在一起。据我们所知,目前仅有 4 个数据集可用于带有背景和适当注释的静态手势识别,包括 HANDS [25]、SHAPES [2]、OUHANDS [22] 和 LaRED [13]。

它们的区别在于样本数量、图像分辨率、类别数量、负样本的存在、场景的同质性以及摄像机与每个被摄体之间的距离。SHAPE 和 OUHANDS 用边界框和分割掩码标记;LaRED 仅用掩码标记,而 HANDS 仅用边界框标记,上述数据集不适合用于

  • 22
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Light-HaGRID数据集是对原始HaGRID手势识别数据集进行了精简和缩小分辨率的版本。整个数据集已经压缩到约18GB左右,可以满足手势识别分类和检测的任务需求。相比原始数据集,Light-HaGRID数据集更轻量化,适合直接使用。\[1\]如果你想下载HaGRID手势识别数据集,需要至少716GB的硬盘空间,但如果你想省事,可以直接下载Light-HaGRID数据集,它只有18GB,并且数据格式已经处理好,可以直接使用。\[2\]如果你的数据集只有部分检测框,但手势分类图片的数据集比较容易采集,建议使用基于手部检测+手势分类识别方法,因为这种方案的标注本较低。如果你需要这个方案,可以通过微信公众号联系作者。\[3\] #### 引用[.reference_title] - *1* [HaGRID手势识别数据集使用说明和下载](https://blog.csdn.net/guyuealian/article/details/126725796)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [基于YOLOv5的手势识别系统(含手势识别数据集+训练代码)](https://blog.csdn.net/guyuealian/article/details/126750433)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Android实现手部检测和手势识别(可实时运行,含Android源码)](https://blog.csdn.net/guyuealian/article/details/126994546)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值