Co-Speech Gesture Synthesis with Learned Templates_ICCV2021

最新推荐文章于 2024-08-14 22:29:49 发布

teacher_ma_

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量429

点赞数

文章标签：人工智能语音识别计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/shenmegoubia/article/details/130756573

版权

该文提出一种方法，利用语音和条件向量生成包括手、头和手臂的上半身动作。通过模板向量减少手势的不确定性，使用VAE进行手势序列建模并评估保真度。采用嘴唇同步误差和Frechet模板距离作为评估指标，确保生成动作的同步性和多样性。

摘要由CSDN通过智能技术生成

0 Abstract

协同语音知识生成，本文的方法生成了一个完整上半身的动作，包括手、头和手臂。目前方法多样性有限、保真度差和缺乏客观指标。由于语音无法完全确定手势，因此设计的方法学习一组手势模板向量对潜在条件进行建模。模板向量决定总的外观，语音驱动细微身体运动。采用唇同步误差评估模型。

1 Introduction

数据驱动方法的障碍是从音频到手势的映射是多模态的。因此回归损失是很重要的。本文用条件向量作为补充输入，提供了缺失的信息（例如习惯、情绪或以前的状态），排除基本事实外的手势，从而将一对多转换为一对一。
具体来讲，为每个配对的音频手势序列分配一个零向量，随着网络一起更新。训练VAE（Variational Auto Encoder）来建模手势序列的分布，此外可以对模板向量解码，可视化对应的手势序列。
本文采用嘴唇回归误差作为度量，同时为了评估保真度，训练的VAE可用于计算Frechet模板距离FTD，测量生成的手势和真实手势的空间分布相似性。

2 Related work

共语手势合成。
说话头和嘴唇同步

3 Method

在这里插入图片描述
给定一段语音作为输入，生成一系列自然姿势和同步动作。
对于音频输入，将波形转换为融合谱图，每个轴上都有时间和频率。然后送到音频编码器得到音频特征，对于模板向量将其副本堆叠到模板特征中，用来对齐音频特征的时间线。因此模型的完整输入是音频特征和模板特征的级联。
姿势生成网络是类似UNet的CNN，通过7层编码器，6层解码器和跳跃连接沿着时间线推进。
输出是手势序列，包括面部、手和手臂坐标。
为了简化，对于每一帧首先通过局部仿射变换将原图像每个身体部位的像素扭曲到目标位置，以获得粗略结果，然后将粗略结果和关键点级联输入到网络细化。

3.1 用学习的条件补充音频

由于存在非单映射关系，仅仅依靠回归生成和GT会导致歧义和过度平滑。因此引入模板向量，期望缩小潜在手势的范围而不是指向特定的手势。将一个条件向量分配给每个短序列（4s），并从音频和条件向量回归到GT。模板向量决定了生成的总体外观，输入音频添加了细微动作来匹配。
通过反向传播学习模板
将每个语音手势对的模板向量初始化为零向量，训练时通过反向传播回归损失，更新模板向量和网络参数。当出现歧义时，更新模板向量缓解歧义。为了正则化模板向量空间，使用KLdiversion损失：
在这里插入图片描述

总损失如下：
在这里插入图片描述

使用反向传播更新模板向量有几个好处：1）收敛更快，拟合更好；2）从训练过的模板向量采样任意模板向量生成不同手势，同时保持高度同步的手势和嘴唇；3）平滑了手势变换。
但仍然有不足：1）因为模板向量是以样本分配的，每个epoch只更新一次，需要仔细调参收敛；2）缺乏可解释性；3）只能从模板向量到手势映射，不能逆向。
通过重建学习模板
为了解决上述的限制，通过引入VAE来学习模板向量。
VAE首先对GT进行编码为平均值向量和方差向量，然后解码到重建的手势序列。一旦被训练，VAE将被冻结，用作FTD的模板提取器

3.2 共语手势生成的评价

一般的评估指标例如L1/2距离，准确性或者PCK并不理想，因为测量的是生成和GT的距离，忽略了音频包含手势的多样性。
一个好的手势合成应满足两个要求：自然度和同步性。接下来从这两个角度提出了评估指标。
嘴唇同步作为代理指标
与肢体姿势不同，嘴唇的形状几乎一致，因为发音需要特定的口型。因此采用生成的嘴唇和GT的距离作为手势同步的度量，主要有两点考虑：1）嘴唇关键点与其他关键点共享网络；2）尽管不能保证好的手势，但嘴唇质量下降是手势下降的预警。公式如下：
在这里插入图片描述

Frechet模板距离
引入FTD作为FID(Frechet Inception Distance)的变体，测量合成的一组样本而不是单个样本，因为为了获得好的FTD结果，生成不仅是自然地而且是多样的。公式如下：
在这里插入图片描述

4 Experiments

在Speech2Gesture数据集进行测试，因为这是唯一一个为上半身特别是面部关键点提供分析的数据集。
报道了三个客观指标：L2距离直接测量GT和预测的距离，唇同步误差用于手势同步的代理度量，FTD作为保真度的测量。

teacher_ma_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Co-Speech Gesture Synthesis with Learned Templates_ICCV2021

协同语音知识生成，本文的方法生成了一个完整上半身的动作，包括手、头和手臂。目前方法多样性有限、保真度差和缺乏客观指标。由于语音无法完全确定手势，因此设计的方法学习一组手势模板向量对潜在条件进行建模。模板向量决定总的外观，语音驱动细微身体运动。采用唇同步误差评估模型。
复制链接

扫一扫