现有产品和技术
腾讯云手势识别
功能
静态手势识别、关键点识别、指尖识别、手势动作识别等多种功能
静态手势识别(手型识别)
- 返回手的位置及类别
- 17种单手,8种双手
手势关键点识别
- 定位手的22个关键点的位置
指尖识别
- 只识别中指指尖
手势识别
- 基于视频识别近距离动作包括左滑、 右滑,远距离动作包括挥手、举手、敬礼等
性能
- 静态手势识别算法的正确率为95+%
- 手势关键点算法的识别正确率为94+%
- 手势动作识别的正确率为90+%
在 iPhone8 上 - 静态手势识别速度为22ms/fps,
- 手部关键点识别速度为28ms/fps
- 手势动作识别速度为30ms/fps
旷视手势识别
二维手型识别
- 19种常见手势
reference
二维手型、二维手势、三维手势的差异
只需挥一挥手:3D手势识别系统含相关引用文献
Google Open Sources Real-Time Hand Gesture Recognition Algorithm For Developers
谷歌开源的手势识别
功能
MediaPipe
- 交叉平台框架
- 可处理不同模态的感知数据
- 移动端实现了实时性,且可实现多个手的追踪
- 单帧推理21个3D关键点
- 可识别手势追踪和识别
模型组成
BlazePalm 实时手掌/手势检测模型
内容
- 返回带方向的边界框
- 采用手掌检测模型可以很大程度地减少数据增强,使得关键点识别模型可以专注于关键点的识别上(而不是区分前景和背景上)
- 对SSD单阶段检测器进行优化,用于手掌检测
难点
- 手掌检测的难点体现在:不同尺度、遮挡和遮挡、缺乏高对比度的模式(VS 人脸有眼睛、鼻子)
解决方案
训练手掌检测器,而不是手检测器
–估计手掌的边界框和拳头比估计高自由度的手要容易一些,
- 手掌是小目标,NMS(非极大值抑制)在两只手遮挡时也可得到较好的结果
- 手掌检测可以采用方形边界框,而不需要考虑不同纵横比的边界框,这样可以减少3-5倍的边界框
编解码结构
编码器-解码器结构可以感知更大的感受野,小目标也可以获得很大的感受野
focal loss
准确率
手掌识别准确率:95.7%
采用普通交叉熵损失函数、无解码结构准确率:86.22%
手势关键点识别模型
- 基于手掌及其附近的裁剪区域,通过回归的方式返回高保证的21个3D关键点
- 原始数据集(约30K)和合成数据集,都采用3D标注,z坐标在深度图获得
手势识别器
- 将之前的关键点外形分类为一组离散的手势
备注:该方法类似于人脸网格的方法,有研究者将其应用于位姿识别
手势识别技术
难点
- 手势遮挡