设备上的实时自定义手势识别

神一样的老师

于 2024-08-31 09:36:00 发布

阅读量1.5k

点赞数 25

CC 4.0 BY-SA版权

分类专栏：论文阅读分享文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bit_mike/article/details/141744915

论文阅读分享专栏收录该内容

246 篇文章

订阅专栏

这篇论文的标题是《On-device Real-time Custom Hand Gesture Recognition》，主要研究了如何在移动设备上实时识别自定义手势。以下是论文的主要内容概述：

摘要：

论文指出现有的手势识别系统大多限于预定义的手势集，但用户和开发者通常希望识别新的、未见过的手势。
提出了一个用户友好的框架，允许用户轻松定制和部署自己的手势识别流程。
框架提供了一个预训练的单手嵌入模型，可以针对自定义手势识别进行微调。
用户可以在网络摄像头前进行手势，收集每个手势的少量图像。
提供了一个低代码解决方案来训练和部署自定义手势识别模型，使得即使没有机器学习（ML）专业知识的用户也能使用框架。
还提供了一个无代码的Web前端，供没有任何ML专业知识的用户使用。
自定义手势识别（HGR）可以在设备上实时运行，通过调用开源模型推理API MediaPipe Tasks中的简单函数实现。

1. 引言：

手势识别在增强现实（AR）、虚拟现实（VR）、视频会议和远程控制应用中起着关键作用。
论文提出了一种创新的方法，即使用预训练模型和有限的训练数据来训练准确且健壮的HGR模型。
预训练模型是在大量手语视频数据集上训练的，然后对权重进行微调以用于自定义手势分类。

2. 架构：

使用了“On-device Real-Time Hand Gesture Recognition”中的工作作为起点。
解决方案使用了一个实时运行的模型，该模型提取手部地标。
为了训练词级手指拼写模型，使用了内部收集的数据集，包含79K个视频和21K个独特的手指拼写单词。
通过使用双向LSTM和连接时序分类（CTC）损失来训练模型，能够提取区分性特征。

3. 结果：

通过微调单手嵌入模型的权重来训练自定义手势识别模型，并报告了结果。
使用了8个类别的内部数据集，包括7个手势类别和1个背景类别。
进行了不同训练样本数量的试验，发现当样本数量为50或更多时，模型表现良好。

4. 手部地标检测改进：

当两只手非常接近或相互遮挡时，地标模型可能无法准确提取两只手的所有地标。
通过在训练和推理期间提供手部地标模型的手性提示，可以提高地标的准确性。

5. 实现：

开发了低代码训练管道MediaPipe Model Maker，使用户能够轻松训练新的手势识别模型。
实现了模块化的推理管道，该管道以原始手部图像序列为输入，并顺序处理所有图像。

6. 结论：

研究提出了一种易于使用的方法，通过微调预训练的手势地标嵌入来训练准确的自定义手势识别模型。
还介绍了对手势地标模型的改进，这些改进增强了手势识别系统的有效性。

参考文献：

论文列出了相关的参考文献，包括关于实时手势识别、手部跟踪、LSTM、CTC损失、深度迁移学习、批量归一化等的研究。

论文的重点在于提出了一种新的框架，使得用户可以自定义手势识别流程，并且通过预训练模型和少量的训练数据来实现高准确率的手势识别，这对于AR、VR等领域具有重要的应用价值。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

神一样的老师 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。