我们使用以下6个分类标准对本文的研究选题进行分析:
1. 手势表示
- 量化手势: 将手势分解为离散单元或代码。矢量量化变分自编码器 (VQ-VAE) 等技术可用于创建有意义的手势元素“代码簿”。
- 优势: 降低计算复杂度、提高手势与语音匹配的效率、并平滑运动数据中的随机变化。
- 连续手势: 这里,手势表示为人体运动的连续轨迹,捕捉了人体运动的流畅流动。
- 优势: 具有更具表现力和细节的手势的潜力、在混合和修改手势序列方面具有灵活性。
2. 语音-手势对齐
- Levenshtein 距离: 该指标计算将一个序列(量化手势)转换为另一个序列(量化语音)所需的最小编辑次数(插入、删除或替换)。它有助于找到语音和手势表示之间的最佳匹配,克服时间差异。
- 语义对齐: 该方法优先考虑口语单词的含义,选择与说话者传达的想法或情绪在概念上一致的手势。
3. 运动匹配策略
- 相位引导匹配: 人体运动通常表现出循环模式(例如步行ÿ