手语生成与室内增强现实导航技术综述
1. 手语生成技术
手语生成主要涉及将英语句子转换为印度手语词汇,并对这些词汇进行动画展示。目前主要有以下几种方法:
- 基于视频数据集训练生成逼真视频 :如文献[12, 13]使用视频数据集训练生成器,输入文本到生成对抗网络(GAN)后,输出对应手语的逼真视频,视频中有真人进行手语表达。
- 基于HamNoSys转换为3D动画 :文献[11, 17, 19]先为对应文本获取HamNoSys,再将其转换为SiGML文件,最终生成3D动画。若HamNoSys或SiGML文件不存在,则需手动创建,较为耗时。
- 使用Doll Control Language(DCL) :文献[16]将精炼的中间语言(与语言无关)传递给系统的生成面板,通过映射和语法机构将其转换为水平输出的令牌序列,再由DCL动画师组装成DCL程序。
不同系统的优缺点总结如下表:
| 文献 | 优点 | 缺点 |
| ---- | ---- | ---- |
| [11] | 系统的识别器经过多个说话者训练,与说话者无关 | 为不存在的每个单词创建HamNoSys耗时 |
| [12] | 新的基于关键点的损失改善了手部图像合成质量;可控视频生产可在大型多样数据集上训练 | 未考虑面部表情 |
| [13] | 输出视频逼真,而非3D头像 | 某些情况下,OpenPose无法识别图像中手指的骨骼关节 |
| [14] | 语音输入直接转换为一系列姿势 | 未关注非手动特征 |
| [15] |