【20220412】文献翻译5:从文本、音频和说话人身份的三要素中生成语音手势

IEEE format:

Y. Yoon et al., “Speech gesture generation from the trimodal context of text, audio, and speaker identity,” ACM Trans. Graph., vol. 39, no. 6, p. 222:1-222:16, Nov. 2020, doi: 10.1145/3414685.3417838.

ACM format:

Youngwoo Yoon, Bok Cha, Joo-Haeng Lee, Minsu Jang, Jaeyeon Lee, Jaehong Kim, and Geehyuk Lee. 2020. Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity. ACM Trans. Graph. 39, 6, Arti-cle 222 (December 2020), 16 pages. https://doi.org/10.1145/3414685.3417838

对于类人代理,包括虚拟化身和社交机器人,在说话时做出适当的手势是人类与代理互动的关键。协同说话的手势增强了交互体验,并使代理看起来有活力。然而,由于缺乏对人的手势的了解,很难产生类似人类的手势。数据驱动的方法试图从人类演示中学习手势技能,但手势的模糊性和个体性阻碍了学习。在本文中,我们提出了一个自动手势生成模型,该模型利用语音文本、音频和说话人身份的多模态背景来可靠地生成手势。通过整合多模态语境和对抗性训练方案,所提出的模型输出的手势与人类相似,并与语音内容和节奏相匹配。我们还为手势生成模型引入了一个新的定量评估指标。使用引入的指标和人类主观评价的经验表明,拟议的手势生成模型比现有的端到端生成模型更好。我们进一步证实,我们的模型能够在语境受限的情况下与合成的音频一起工作,并且表明,通过在风格嵌入空间中指定不同的说话人身份,可以为相同的语音生成不同的手势风格,这是从不同说话人的视频中学习的。所有的代码和数据都可以在https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context。

CCS的概念。- 计算方法→动画;通过回归进行监督学习。
其他关键词和短语:非语言行为、共语姿态、神经生成模型、多模态、生成模型的评估

1 简介

图形和机器人技术的持续发展促使人工具身代理的发展,如虚拟化身和社交机器人,作为一种流行的互动媒介。体现型代理的优点之一是其非语言行为,包括面部表情、手势和身体姿态。在本文中,我们关注的是与说话一起发生的上身手势。这种共同说话的手势是人与人之间非语言交流的一个代表性例子。适当地使用手势有助于理解语言[McNeill 1992],并增加说服力和可信度[Burgoon等人1990]。手势不仅在人与人的互动中很重要,而且在人与机器的互动中也很重要。人工代理所做的手势可以帮助听众集中注意力和理解话语[Bremner等人,2011],并改善人类和代理之间的亲密关系[Wilson等人,2017]。
交互式人工代理,如游戏人物、虚拟化身和社交机器人,需要实时生成与他们的语音一致的手势。自动生成协同语音的手势是一个困难的问题,因为机器必须能够理解语音、手势以及它们之间的关系。两个有代表性的手势生成方法是基于规则和数据驱动的方法[Kipp 2005; Kopp et al. 2006]。基于规则的方法,顾名思义,定义了各种将语音映射到手势的规则;它需要大量的人力来定义这些规则,但它被广泛用于商业机器人,因为这些模型相对简单和直观。数据驱动的方法是从人类的演示中学习手势技能。这种方法需要更复杂的模型和大量的数据,但它们不需要人类在设计规则方面的努力。随着大型手势数据集越来越多,关于数据驱动方法的研究也越来越多,例如[Chiu等人,2015;Ginosar等人,2019;Huang和Mutlu,2014;Kipp,2005;Yoon等人,2019] 。

有一种数据驱动的方法,称为端到端方法[Gi-nosar等人,2019;Yoon等人,2019],与其他方法不同的是,它使用原始的手势数据,没有预先限定的单元手势等中间表示。这种限制性较小的表示方法增加了该方法的表达能力,使其能够产生更自然的手势。以前的研究已经成功地展示了端到端的手势生成方法。然而,他们只考虑了单一的模式,即语音音频或文本,这使他们受到了限制。由于人类的手势与各种因素有关,如语音内容、语音音频、对话者的互动、个人性格和周围环境,从单一的语音模式生成手势会产生一个非常有限的模型。在对人类手势的研究中[McNeill 1992],研究人员定义了四类手势,称为标志性手势、隐喻性手势、表意性手势和节拍性手势,它们与不同的语境有关。标志性手势说明了物理动作或属性(例如,在说 "高 "时举起双手),而隐喻性手势则描述了抽象的概念(例如,在说 "约束 "时上下移动双手来描绘一堵墙)。标志性手势和隐喻性手势都与语音词汇高度相关。象征性手势是指向特定目标或空间的指示性动作,与语音词汇和做出该手势的空间环境都有关系。节拍手势是有节奏的动作,与语音音频密切相关。此外,即使是相同的语音和相同的周围环境,由于人类手势的人际和人内差异性,每个人每次都会做出不同的手势,而人际差异性可能归因于个人性格。为了产生更有意义的、类似人类的手势,应该考虑与语音有关的各种模式。

在本研究中,我们提出了一个端到端的手势生成模型,该模型利用文本的多模态语境来表达语音内容,利用音频来表达语音节奏,利用说话人身份(ID)来表达风格变化。为了整合这些多模态,我们根据人类手势研究中发现的语音和手势之间的时间同步特性,设计了一个节奏同步的编码器和解码器架构[Chu and Hagoort 2014; McNeill 2008]。我们通过实验证实,每种模式都是有效的。特别是,从说话人的ID中学习了一个风格嵌入空间,以反映人与人之间的差异性,因此我们可以通过对风格嵌入空间中的不同点进行采样,为同一讲话创造不同风格的手势。图1提供了拟议的手势生成模型及其训练的概况。该模型是在一个来自在线视频的数据集上进行训练的,该数据集展示了语音手势,其训练目标是生成类似人类的、多样化的手势。我们的任务是开发一个通用的手势生成器,这个模型应能为以前未见过的语音生成令人信服的手势。
手势生成研究中的一个主要障碍是确定如何评估结果。在手势生成中没有单一的基础真理,也没有定义明确的评估方法。人类的主观评价是最合理的方法,但它的成本效益不高,而且很难复制结果。一些研究使用了人类手势实例和同一语音的生成手势之间的身体关节位置的平均绝对误差(MAE)[Ginosar等人,2019;Joo等人,2019]。MAE评价方法是客观的、可重复的,尽管很难确定关节间的MAE与可感知的手势质量有多大关联。在本文中,我们将图像生成再研究中提出的Fréchet inception distance(FID)概念[Heusel等人,2017]应用于我们的手势生成问题。FID比较了真实图像和生成的图像集之间在潜在图像特征空间上的拟合分布。我们引入了弗雷谢手势距离(FGD),它比较了潜伏手势特征空间上的样本。通过合成噪声数据并与人类的判断相比较,我们验证了所提出的指标比计算手势之间的MAE在感知上更可信。

我们的贡献可以概括为以下几点:

  • 一个新的手势生成模型,使用语音文本、音频和说话人身份的三模态背景。据我们所知,这是第一个使用三模态来生成共同语音手势的端到端方法。
  • 提出并验证了一个新的手势生成模型的客观评价指标。
  • 通过广泛的实验来验证所提议的模型的可用性。我们展示了用训练好的风格嵌入空间进行的风格操作,模型对改变的语音文本的反应,以及手势与合成音频的结合。

本文的其余部分组织如下。我们首先介绍了相关研究(第2节),然后详细描述了所提出的模型(第3节)及其训练(第4节)。第5节介绍了评估手势生成模型的指标,第6节描述了验证所提指标的人类评估。第7节介绍了定性和定量的结果。最后,第8节是本文的结论,讨论了本研究的局限性和未来方向。

2 相关工作

我们首先回顾了人工代理的自动协同语音手势生成方法。接下来,我们介绍以前的数据驱动的手势生成方法。我们还介绍了讨论手势风格、多模态和评估方法的相关工作。
人工代理的联合语音手势生成。动作捕捉和将人类动作重新定位到人工代理上被广泛用于生成动作,特别是在商业系统中,因为它具有来自人类演员的高质量动作[Menache 2000]。非语言行为也可以通过重新定位人类运动来生成[Kim and Lee 2020]。然而,动作捕捉法有一个关键的限制:动作要事先记录。因此,动作捕捉方法只能用于有指定脚本的电影或游戏。交互式应用中,代理与人类实时互动的各种语音语调,大多使用自动手势生成方法。典型的自动生成方法是基于规则的生成[Cassell等人,2004;Kopp等人,2006;Marsella等人,2013]。例如,机器人NAO和Pepper[软银2018]有一套预定义的单元手势,并有连接语音词和单元手势的规则。这种基于规则的方法需要人类努力设计单元手势和数百条映射规则。对数据驱动方法的研究旨在减少规则生成所需的人力努力;这些方法使用机器学习技术在数据中寻找手势生成规则。对语音与手势映射的概率建模也进行了研究[Huang and Mutlu 2014; Kipp 2005; Levine et al. 2010],还提出了一个为给定语音语境选择合适手势的神经分类模型[Chiu et al. 2015]。评论文章[Wagner等人,2014]对手势生成研究和基于规则的方法进行了全面总结。
端对端手势生成方法。手势生成是一个复杂的问题,需要理解语音、手势及其关系。为了降低这项任务的复杂性,之前的数据驱动模型将语音分为不连续的主题[Sadoughi和Busso 2019],或者将手势表示为预定义的单元手势[Huang和Mutlu 2014;Kipp 2005;Levine等人,2010]。然而,随着最近深度学习的进步,使用原始手势数据的端到端方法是可能的。有一些使用端到端方法的研究[Ferstl等人,2019;Ginosar等人,2019;Kucherenko等人,2019,2020;Yoon等人,2019]将手势生成制定为一个回归问题而不是分类问题。这种连续的手势生成不需要精心设计单元手势及其规则,也消除了手势表达必须从预先确定的单元手势中选择的限制。
一项研究使用了一个注意力Seq2Seq网络,该网络从语音文本中生成一连串的上半身姿势[Yoon等人,2019]。该网络由一个处理语音文本的文本编码器和一个生成姿势序列的手势解码器组成。其他研究从语音音频生成手势[Ferstl等人,2019;Ginosar等人,2019;Kucherenko等人,2019]。这些基于音频的生成器也是基于生成姿势序列的神经架构,一些研究使用对抗性损失来引导生成的手势变得与实际人类手势相似。以前的模型之间的主要区别是使用了不同的语音模式。语义学和声学对于生成共同语音手势都很重要[McNeill 1992],因此,在本文中,我们提出了一个使用多模态语音信息、音频和文本的模型。请注意,有一项同时考虑了音频和文本信息的工作,但它在一个有限的单一演员的数据集上训练和验证了生成模型[Kucherenko等人,2020]。
手势的学习方式。人们即使在说同样的话时也会做出不同的手势[Hostetter和Potthoff 2012]。类似地,人工代理也必须学习不同风格的手势。代理人应该能够根据他们的情绪状态、交互历史、用户偏好和其他因素做出外向或内向风格的手势。风格化的手势也给代理一个独特的身份,类似于外表和声音。以前的研究试图生成这种风格化的手势[Ginosar等人,2019;Levine等人,2010;Neff等人,2008]。在这些研究中,生成模型是为每个说话人或风格单独训练的。这种方法是学习个体风格的明显方式,但需要为每个个体风格提供大量的训练数据。由于这一限制,在[Levine等人,2010]和[Ginosar等人,2019]中,分别只训练了三种和十种个人风格。在本研究中,我们的目标是建立一个风格嵌入空间,这样我们就可以通过对不同风格嵌入的空间进行采样来操纵风格,而不是像以前的论文那样复制某种风格。另一项研究提出通过使用手部位置、运动速度或移动空间的控制信号来进行更详细的风格操作[Alexanderson等人,2020]。
处理多模态数据。本研究考虑了四种模式:文本、音频、手势运动和说话人身份。一般来说,多模态数据处理包括每个模态的表示,模态之间的对齐,以及模态之间的翻译[Baltrušaitis等人,2018]。有两种表示方法:一种是所有模态共享相同的表示,另一种是模态单独表示,后期对齐或DeepL,将其整合。我们可以找到与手势生成相关的两种表示方法。

Ahuja和Morency 2019]的一项研究将人类mo-tion和描述性文本都表示为同一嵌入空间的向量。在其他研究中,不同的表征被用于不同的模态[Roddy等人2018;Sadoughi和Busso 2019]。我们使用单独的表征,因为语音和手势之间的关系较弱且不明确,所以很难为共语手势学习一个跨模态的表征。
对于时间序列数据来说,模态之间的对齐也是一个重要因素。在[Ginosar等人,2019]中,编码输入语音的特征向量被传递给解码器以生成手势,模式之间的对齐没有被明确处理。一个神经编码器和解码器隐含地处理了对齐以及从语音到手势的翻译。在[Yoon等人2019]中,使用了类似的编码器śdoder架构,但他们通过纳入注意力机制[Bahdanau等人2015]引导模型更明确地学习顺序对齐。在[Kucherenko等人,2020]中,语音音频和文本被对齐,但没有与手势对齐。我们的模型使用明确对齐的语音和手势,因为语音和手势在时间上是同步的[Chu and Hagoort 2014],允许网络集中于从输入语音到手势的翻译。
评估生成式模型。最近,随着生成模型研究的扩大,对评估生成模型的兴趣也在增加。在一个考虑到语音合成、图像生成和对话文本生成的生成问题中,人类评价是最合理的评价方法,因为没有明确的基础真相可以比较。然而,人类评价的结果不容易被复制。一个可靠的计算评估指标对于与最先进的模型进行可重复的比较是必要的,并会加速研究。先前的研究已经测量了生成的手势和人类手势之间的差异[Ginosar等人,2019;Joo等人,2019],尽管这种方法是有限的,因为姿势水平的差异并不能衡量生成的手势的感知质量。一些研究使用了其他指标来评估人类运动,例如,抽搐和加速度的mo-tion统计[Kucherenko等人,2019]和来自舞蹈编排研究的拉班参数[Aristidou等人,2015]。然而,上述指标是计算每个样本的距离,所以它们不能衡量生成的结果是如何多样化的,这在生成问题中是至关重要的。在图像生成问题中,inception score[Salimans等人,2016]和FID[Heusel等人,2017]最近成为事实上的评价指标,因为它们可以衡量生成样本的多样性以及它们的质量,这一概念被成功应用于其他生成问题[Kilgour等人,2018;Unterthiner等人,2019]。在这项研究中,我们将FID的概念应用于手势生成问题,以衡量感知质量和多样性。

3 方法

3.1 整体架构

本文中的手势生成是一个翻译问题,从给定的语音环境中生成共话手势。我们的目标是生成类似人类的手势,并与任何给定的语音很好地匹配。我们提出了一个神经网络架构,包括三个输入语音模式的编码器和一个生成手势的解码器。图2显示了整体架构。三种模式–文本、音频和说话人身份(ID)–用不同的编码器网络进行编码,并传送给手势生成器。
一个手势被表示为一连串的人体姿势,生成器是一个递归神经网络,从包含编码的语音背景的特征向量的输入序列中逐帧生成姿势。语音和手势在时间上是同步的[Chu and Hagoort 2014; McNeill 2008],因此我们将生成器配置为使用靠近当前时间步骤的部分语音文本和音频,而不是整个语音背景。手势风格在短期内不会改变,所以在整个合成过程中使用相同的说话人ID。此外,我们在前几帧使用了种子姿势,以便在连续的合成之间有更好的连续性。详细架构图见附录A。

3.2 语音语境的编码

本节描述了如何表示文本、音频和说话者身份的语音模式以及编码器网络的细节。我们有四种模态,包括输出手势,具有不同的时间分辨率。我们首先确保所有的输入数据具有与输出手势相同的时间分辨率,因此所有的模态共享相同的时间步骤,所提出的顺序模型(图2)可以处理语音输入并逐帧生成姿势。

文本模态:
利用嵌入padding tokens (⋄) 确保所有得文本序列长度相等,t是合成手势的帧数,本文固定为34。假设单词的准确发音时间是已知的,所以插入填充标记能使单词在时间上与手势相匹配。如对于”I love you”,如果在”I”和”love”之间有短暂的停顿的话,填充序列后的句子为”I ⋄ ⋄ love you”,这时t=5。填充序列后的句子通过维度为300的word embedding层转为词向量。这些词向量再通过时域卷积网络(temporal convolutional network, TCN)得到32维的特征向量。
使用预训练词嵌入模型FastText微调的方法。预训练的词嵌入可能不适合手势生成(预训练的方法为CBOW或skip-gram),例如查询与大相近的词,那么小就会出现在GloVe和FastText的前三名列表中,尽管它们的含义相反。测试了三种不同的设置。1)不更新权重的预训练嵌入,2)微调权重的预训练嵌入,以及3)从头学习词嵌入。最后发现预训练模型微调的方法最好。FastText比GloVe更好,因为FastText使用子词信息,能够对未见过的词给出准确的表示。
每个 f i t e x t f_i^{text} fitext感受野为16,即每个 f i t e x t f_i^{text} fitext在每个时间步i编码16个填充序列后的词。训练集中平均无填充序列长度和最大无填充长度为3.9和16。

我们使用FastText[Bojanowski等人,2017],一个预训练的单词嵌入,并在训练中更新这些嵌入。有人担心,通过填补句子中的错别字[Mikolov等人,2013]预训练的词嵌入可能不适合手势生成。例如,如果我们查询与大相近的词,那么小就会出现在GloVe[Penning-ton等人,2014]和FastText[Bojanowski等人,2017]的前三名列表中,尽管它们的含义相反。在基于文本的情感分析中也提出了这种预训练词嵌入的问题,在这种分析中,词的情感很重要[Fu等人,2018]。我们测试了三种不同的设置。1)不更新权重的预训练嵌入,2)微调权重的预训练嵌入,以及3)从头学习词嵌入。在我们的问题中,使用带有微调的预训练嵌入是最成功的。FastText[Bojanowski等人,2017]比GloVe[Penning-ton等人,2014]更受青睐,因为FastText使用子词信息,所以它对未见过的词给出了准确的表示。

语音音频模态,原始音频波形通过级联的一维(1D)卷积层,以产生一个32维特征向量。频率通常是固定的,所以我们调整了卷积层的大小、步长和填充,以获得与输出运动帧数量相同的音频特征向量。在我们的经验中,每个特征向量的接受领域大约为四分之一秒。四分之一秒的接收域可能不足以覆盖语音和手势之间偶尔出现的不同步(根据[Bergmann等人,2011],时间差异的标准偏差约为半秒),但我们在手势发生器中使用双向GRU,向前和向后发送信息,可以弥补不同步的问题。

该模型还使用说话人的ID来学习一个风格嵌入空间。人类的手势是不一样的,即使是同样的讲话。我们利用说话人的ID来反映数据集中每个说话人的特征,在本文中我们把这种个性称为 “风格”。请注意,我们的目的是建立一个捕捉不同风格的嵌入空间,而不是复制每个说话者的手势。说话者的ID被表示为单热向量,其中一个被选中的说话者只有一个元素是非零的。一组完全连接的层将说话者ID映射到一个维度更小的风格嵌入空间(在本研究中为8)。为了使风格嵌入空间更容易解释,使用了使用概率抽样过程的变异推理[Kingma and Welling 2014; Rezende et al. 2014]。风格嵌入空间上的同一个特征向量𝑓风格被用于合成的所有时间步骤。

3.3 手势生成器

每个时间步t,生成器 G(·) 将所有的编码器特征拼接作为输入并生成下一帧手势𝑑 ̂_(𝑖+1)。手势是一连串的人体姿势pi,由10个上身关节(脊柱、头、鼻子、脖子、左/右肩、左/右肘和左/右腕)组成。
所有的姿势都以脊柱为中心。将每个姿势表示为方向向量,代表子关节与父关节的相对位置。有九个方向向量,分别是脊柱-脖子、脖子-鼻子、鼻子-头、脖子-左/右肩部、左/右肩部-左/右肘部和左/右肘部-左/右手腕。方向性矢量受关节长度和root motion影响较少。关节坐标的表示中,双臂的父关节——脖子的小幅度平移会对双臂的所有坐标产生过度影响。用𝑑𝑖表示人类姿势的方向向量,所有方向向量被归一化为单位长度。本文没有考虑前臂的扭转。
对于长语音,语音被分为2秒的块,对于每一个块生成手势。每个块的前一个块的最后四帧(左图是两帧)作为该块种子姿势 d i = 1 , … , 4 d_i=1,…,4 di=1,,4,一个额外的位用来表示种子姿势是否存在。

3.4 对抗性计划

在训练模型时采用了对抗性方案[Goodfellow等人,2014],以生成更真实的手势。该对抗性方案使用一个鉴别器,这是一个二进制分类器,用于区分真实手势和生成的手势。通过对生成器和鉴别器的交替优化,生成器提高其性能以欺骗鉴别器。对于鉴别器,我们使用了一个多层的双向GRU,在每个时间步长中输出二进制输出。一个全连接层汇总了𝑡的二进制输出,并给出了最终的二进制(真实或生成的手势)决定。

4 使用 "野外 "视频进行训练

4.1 TED手势数据集

在这里插入图片描述

手势生成模型是在TED手势数据集[Yoon等人,2019]上训练的,这是一个大规模的英语数据集,用于数据驱动的手势生成研究。该数据集包括来自不同演讲者的语音,因此它适合于学习个体的手势风格。我们在[Yoon et al. 2019]的数据中增加了471个额外的TED视频,总共有1,766个视频。从TED视频中提取的胡人姿势、语音音频和转录的英语语音文本都可以使用。我们通过使用3D姿势估计器[Pavllo等人,2019]进一步将所有人类姿势转换为3D,该估计器将一连串的2D姿势转换成3D姿势。姿势估计器使用时间上的卷积,尽管有一些不准确的二维姿势,也能得到时间上一致的结果。我们使用每个TED演讲的人工语音转录,使用Gentle强制对齐器[Ochshorn和Hawkins 2016]提取每个单词的起始时间戳,插入填充标记。强制对齐器报告说成功对齐了97%的单词。
从视频中,只提取了上半身手势清晰可见的视频部分;有效数据的总时长为97小时。手势姿势以每秒15帧的速度重新取样,每个训练样本有34帧,从有效视频部分取样,步长为10。最初的四帧被用作种子姿势,模型被训练以生成剩余的30个姿势(2秒)。我们排除了有少量运动的非信息样本(即姿势序列的低方差)和有说谎姿势的不稳定样本(即脊柱与颈部向量的低角度)。
数据集被划分为训练、验证和测试集。这种划分是在视频层面上进行的。因为TED数据集中的所有演讲都是由不同的演讲者进行的,所以唯一的演讲者ID的数量和视频的数量是一样的,而且分裂集之间的演讲者ID没有重叠。我们用训练集来训练模型,用验证集来调整系统,用测试集来获得定性结果和人工评估。每个数据分区中34帧序列的最终数量为199,384;26,795;和25,930。

4.2 训练损失函数

该模型是用以下损失来训练的。用 L G L_G LG来训练编码器和手势发生器,用 L D L_D LD来训练判别器。
在这里插入图片描述
在这里插入图片描述
t是手势序列的长度(34),di表示第i个姿势的方向向量。训练编码器和手势发生器时,使用Huber loss最小化人类姿势d和对应生成的姿势𝑑 ̂,𝐿_𝐺^Huber可以被视为L1 和 L2 损失的一次差分的组合,有时也被称为smooth L1 loss。对抗损失𝐿_𝐺^NSGAN 和LD来自non-saturating generative adversarial network (NS-GAN)。使用样本平均值来近似期望。

一个以多种输入语境为条件的生成模型往往会受到后验塌陷的影响,因为弱的语境被忽略了。在所提出的模型中,各种手势只能从文本和音频中产生,因此在训练过程中,来自说话者ID的风格特征可能被忽略。因此,我们使用多样性正则化[Yang
et al. 2019]来避免忽略风格特征。𝐿_𝐺^style是不同风格特征产生的手势之间的Huber loss ,以两个风格特征的差异为标准,所以它引导嵌入空间中的风格特征产生不同的手势。τ 是为了数值稳定而进行的数值箝制。 𝑓_^style1是与说话人ID相关的训练样本的特征向量, 𝑓_^style2是随机挑选的其他风格特征向量。 𝐿_𝐺^KLD, N(0,𝐼)和风格嵌入空间之间的Kullbackś-Leibler(KL)发散假设为高斯,防止风格嵌入空间过于稀疏。

𝐿𝐷用于训练判别器𝐷,生成器和判别器像传统的GAN训练一样,用𝐿𝐺和𝐿𝐷交替更新[Goodfellow等人2014]。𝐷(-)被训练为对人类手势输出1,对生成的手势输出0。
该模型被训练了100个历时。使用Adam优化器,𝛽1=0.5,𝛽2=0.999,学习率为0.0005。损失项的权重通过实验确定(𝛼=500,𝛽=5,𝛾=0.05,和𝜆=0.1)。此外,还有一个10个历时的热身期,其中没有使用对抗性损失(𝛽=0)。𝜏为1000。
训练好的编码器和发生器在合成阶段使用。由于该模型足够轻巧,合成可以实时完成。在GPU(NVIDIA RTX 2080 Ti)上进行一次生成30个姿势的合成需要10毫秒,在CPU(Intel i7-5930K)上需要80毫秒。

5 客观评价指标

客观地评估手势生成模型是很困难的,因为没有人类手势的感知质量指标可用。尽管有可能采用一种人类评估方法,让参与者对生成的手势进行主观评价,但仍然需要客观的评估指标,以便在最先进的模型之间进行公平和可重复的比较。对于手势生成问题,目前还没有合适的、广泛使用的评价指标。

图像生成研究提出了FID度量[Heusel等人,2017]。使用预先训练好的特征提取器从生成的图像中提取潜在的图像特征,FID计算真实图像和生成图像的特征分布之间的弗雷谢距离。因为FID使用的是能很好描述视觉特征的特征向量,所以FID比对原始像素空间的测量更适合感知。FID还可以通过使用样本的分布来测量生成样本的多样性,而不是简单地对真实样本和生成样本之间的差异进行平均。生成的多样性被认为是评价生成模型的主要因素之一[Borji 2019]。多样性对于手势生成问题也很关键,因为使用重复的手势会使人工代理看起来很呆板。

5.1 Fréchet 手势距离

在将FID的概念应用于手势生成问题时,存在着一个障碍,即没有通用的特征提取器可用于手势数据。提出FID的论文使用了在ImageNet数据库上训练的inception网络进行图像分类,但据我们所知,没有类似的预训练inception网络用于手势运动数据。因此,我们训练了一个基于自动编码的特征提取器[Rumelhart等人,1985],它可以以无监督的方式训练。该特征提取器由一个卷积编码器和解码器组成。编码器编码一个 quence of direction vectors 𝑑编码到一个潜在的特征𝑧𝑔𝑒𝑠,然后解码器试图从潜在的𝑧𝑔𝑒𝑠,恢复原始姿势序列(详细结构见附录A)。这种无监督的学习与FID中使用的接纳网络的监督学习不同。然而,有监督和无监督的学习都被证明对学习感知质量指标是有效的[Zhang等人,2018]。
训练后的自动编码器的编码器部分被用作特征提取器。我们将FGD(𝑋, 𝑋ˆ)定义为人类手势潜在特征𝑋的高斯平均值和协方差与生成手势潜在特征𝑋ˆ的高斯平均值和协方差之间的弗雷谢特距离,具体如下。
在这里插入图片描述

其中,𝜇𝑟和Σ𝑟是真实人类手势𝑍𝑟的潜在特征分布的第一和第二时刻,而𝜇𝑔和Σ𝑔是生成手势𝑍𝑔 的潜在特征分布的第一和第二时刻。
为了训练特征提取器,我们使用了Human3.6M数据集[Ionescu等人,2013],其中包含了7个不同演员的动作捕捉数据和17个不同的场景,包括讨论和购买显示共同语言手势。训练数据的总时长约为175米。所有姿势都是基于两个髋关节的正面化。

5.2 用合成噪声数据进行实验

我们利用同步的噪声数据探索了所提出的FGD指标的特性。我们考虑了五种类型的噪声数据。高斯噪声和Salt&Pepper(S&P)噪声被添加到姿势的联合坐标中;同样的噪声数据被添加到一个序列中的所有姿势中,这样就没有人为的时间不连续。时间性噪声是通过只在几个时间帧上添加高斯噪声来模拟的。
使用主成分分析(PCA)从𝑝𝑖转换的“eigenposes”中的乘法转换被用来产生单调或夸张的手势。不匹配的手势也被生成,以考察该指标对语音和手势之间的差异的反应。下面显示了噪音数据是如何被合成的。参数𝜁控制整体干扰水平。姿势的维度,𝐾,是30(三维坐标中的10个关节)。

图3显示了合成噪声数据的样本。高斯噪声引入了所有关节的变化,而S&P噪声在少数关节产生了冲动性噪声。时间性噪声在运动中引入了不连续的情况。乘法变换被应用于特征点,所以它控制了整体运动范围。不匹配噪声显示了不匹配的内容和语音节奏的样本。
我们测量了FGD和关节坐标的平均绝对误差(MAEJ),其计算公式为MAE(𝑝˜,𝑝)。图4显示了经验性的结果。对于高斯和S&P噪声,FGD和MAEJ都显示出随着干扰水平的增加而增加的距离,但是FGD对于S&P噪声显示出比高斯噪声平均更大的距离,与MAEJ不同。如图3(b)和©所示,有高斯噪声的样本看起来仍然像人的姿势,尽管有一些扭曲,而有S&P噪声的样本显示出不现实的姿势,脖子离开了上半身。有高斯噪声的样本比有S&P噪声的样本在感知上更可信,因此,在我们看来,对S&P噪声有较大距离是可以接受的。
FGD和MAEJ都显示节奏噪声的数值相对较低,即使不连续的运动在知觉上是不自然的。MAEJ独立计算每个时间段的误差,因此很明显,MAEJ不能捕捉到运动的不连续性。然而,对整个序列进行编码的FGD也意外地显示出低距离。主要原因是FGD中使用的特征提取器不能对有时间噪声和无时间噪声的序列进行足够的区分。当我们检查来自自动编码器的重建运动时,我们发现自动编码器倾向于去除时间性噪声。
对于乘法变换,随着干扰程度的增加(大于或小于𝜁=1.0),两个指标的距离都呈递增趋势。MAEJ在𝜁=0.0和2.0时显示出类似的距离,但当𝜁=0.0时,FGD显示出更大的距离。如图3(e)和(f)所示,𝜁=0.0和2.0会做出平均和夸张的姿势。如果我们考虑几个结果及其多样性,夸张的姿势在知觉上比拥有相同的平均姿势更受青睐,无论输入语音如何。因此,对于𝜁=0.0的距离比2.0的距离大是合理的,就像FGD那样。
最后,对于不匹配的样本,MAEJ和FGD都显示出更多的不匹配样本的距离增加,但FGD的增加比MAEJ小。这个结果并不令人惊讶,因为FGD考虑的是由一组手势形成的分布,并没有意识到输入语音。

在这个实验中,我们发现FGD对于高斯噪声、S&P噪声和乘法变换的不同手势数据给出了知觉上可接受的结果,并且有一个局限性,即它不能很好地测量语音和手势的时间性噪声和匹配。我们发现了FGD的特点;然而,根据合成数据的实验,很难论证该指标适合使用,因为每个语音只使用了一个人类手势的例子,尽管语音和手势之间存在多对多的映射关系。为了进一步研究FGD和MAEJ的有效性,我们在以下部分将这些指标与人类的判断进行比较

6 用户研究以验证评价指标

在本节中,我们通过与人类的主观评价进行比较来验证FGD。我们沿用了介绍弗雷谢视频距离的论文中的整体实验设置[Unterthiner等人,2019],但我们用14个噪声模型和10个训练好的手势生成模型进行了两次独立的用户研究。在第一个环节中,使用了14个噪声模型(不包括Mismatched与𝜁 = 0.2和0.5)。在第二个环节中,我们在本研究过程中训练的模型中选择了10个显示不同FGD的手势生成模型。我们试图选择在FGD方面等距的模型。所选的模型处于不同的结构、配置和训练阶段;关于所选模型及其配置的完整列表,见附录B。我们还将人类的手势包括在这两个环节中。
我们制作了视频,展示了一个假人角色为每个模型做的手势。在评估中,使用了成对的偏好比较,而不是李克特量表评分。同声传译的手势很微妙,所以参与者会很难用5分或7分的量表来评价它们。正如[Clark等人,2018]中所讨论的,使用成对的偏好比较可以减少参与者的认知负荷,并产生可靠的结果。参与者观看了两个不同模型的视频,并回答了三个问题中的一个,询问了他们的偏好、动作的人类相似性以及语音与手势的匹配:1)“你喜欢哪种手势动作?”,2)"哪种手势动作更自然、更像人类? 3)哪种手势动作与语音和文字搭配更合适?"答案选项为:“视频A”、"视频B "和 “不确定”。每个参与者被要求在他/她的所有试验中回答一个随机选择的问题,因为这三个问题是分阶段相关的,如果我们同时问三个问题,参与者很容易给出相同的答案。
为了评估,我们从TED测试数据集中随机抽取了长度为5ś10 s的语音样本。我们只审查样本中提取的三维人体姿势的质量,以排除可能误导人类手势表现的错误样本(顶线)。在排除了演讲者正在操纵一个物体、坐在椅子上和被讲台遮挡的四个错误样本后,30个演讲样本被用于评估。为消除排序效应,每个配对比较都随机选择两个模型。
从Ama-zon MTurk招募了母语或双语的英语使用者。每位参与者对30个配对比较作出反应,这些比较是在所有可能的配对组合中随机选择的(30个句子×{15𝐶2或11𝐶2}×3个问题)。他们花了15至30分钟完成任务,并给予2.5美元的奖励。我们还包括一个注意力检查,将同一视频的两份拷贝并排呈现。在这种情况下,没有回答 "不可解 "的参与者被排除在外。在第一次使用噪音模型的测试中,共有28名受试者参加,但在排除了6名未能通过注意力检查的受试者后,我们分析了22名受试者的结果。有13名男性和9名女性被试,他们的年龄是36.9±11.5岁。在第二个环节中,共有51名受试者参加了训练后的生成模型,并排除了21名受试者。有15名男性和15名女性被试,他们的年龄是42.8±13.2岁。第一次和第二次会议的答案总数分别为660和900。

我们通过与人类的判断进行比较来评估客观评价指标,结果见表1。加速度的MAE被用来评估舞蹈运动[Aristidou等人,2015]和手势[Kucherenko等人,2019],它侧重于运动而不是姿势。吻合值的计算方法是,每个指标与人类判断相吻合的比较次数除以比较的总次数。无法确定的反应不包括在分析中。在这两次测试中,在所有的问题上,FGD与人类判断的一致性比MAE和MAE的加速度更大。然而,FGD的表现不如人与人之间的一致;特别是,FGD对时间性噪声表现出最低的一致,为53.5%,这一点在第5.2节中讨论。
通过考虑合成噪声数据的实验结果和人类的判断,FGD是一个可信的客观指标。此外,当我们检查学习曲线(如图5所示)时,随着训练的继续,当生成的手势分布变得与参考分布更相似时,FGD显示出下降的趋势。相比之下,MAEJ显示出平坦的学习曲线。最低的MAEJ是在第6纪元,在这一纪元中,所有的语言环境都只出现静态的平均姿势。在下面的实验中,我们用FGD来比较模型。
所有被试都被要求写出他们选择的理由。他们中的大多数人说他们更喜欢与语音词和音频相适应的手势,正如我们在本文中所假设的那样。对手势动态的意见不一。一些参与者喜欢动态的甚至是夸张的手势,而其他一些参与者则偏爱适度的手势,有几个大动作来强调。这意味着手势风格必须根据用户的偏好进行调整。

7 实验和人类评价

7.1 定性结果

图6显示了TED手势数据集的测试集中语音的手势生成结果。这些手势是用一个三维虚拟人物描述的。用方向矢量表示的姿势被重新定位到具有固定骨长的角色上,手势序列用立方样条插值升采样到30FPS。我们对所有的动画使用了相同的重定位程序。当说到 “民权”、"三千万 "或 "伟大的领导 "时,这个角色会做出隐喻性的手势,在 "说到点子上 "这句话中也发现了标志性的手势。在(c)中,当人物说 "我 "时,也出现了一个表意的手势。

7.2 与最先进的模型的比较

我们将所提出的模型与以前研究中的三个模型进行了比较。第一个比较的模型是注意型Seq2Seq,它从语音文本中生成手势[Yoon等人,2019]。我们沿用了作者提供的原始实现,但手势表示法被修改为与提议的模型相同。第二个比较模型是Speech2Gesture[Ginosar等人,2019],它使用编码器śdecoder神经架构从语音音频中生成手势,并在训练期间通过使用对抗性损失来学习生成类似人类的手势。在这个模型中,频谱图被用来表示音频。第三种是联合嵌入模型[Ahuja和Morency 2019],它从运动描述文本中创建人类运动。这个模型将文本和运动映射到同一个嵌入空间。我们将输入的语音文本和音频一起嵌入到与运动相同的空间。我们模型中相同的编码器被用来处理音频和文本,4层的GRU被用来生成手势。所有模型都在相同的TED数据集上进行了相同次数的训练。我们修改了基线的原始架构,以生成相同数量的姿势(即30个),并使用四个种子姿势进行连续合成。基线中的学习率和损失项的权重通过网格搜索进行了优化,以获得最佳的FGD。
图7显示了每个模型对同一语音的样本结果。联合嵌入模型产生了非常静态的姿势,未能学习手势技能。语音和手势之间的关系很弱而且很微妙,因此很难将语音和手势映射到联合嵌入空间。所有其他的模型都产生了可信的动作,但根据考虑的模式和训练损失,存在着差异。注意力Seq2Seq为不同的输入语音句子生成了不同的手势,但运动往往很慢,我们发现种子姿势和生成的姿势之间有一些不连续。Speech2Gesture模型使用了与注意力Seq2Seq相似的RNN解码器,但在其对抗性损失组件的帮助下,它显示了更好的运动。然而,由于它只使用单一的语音模式,即音频,Speech2Gesture产生了单调的节拍手势。如补充视频所示,提议的模型成功地生成了大型动态手势。
拟议的模型在FGD方面表现最好(表2)。我们还通过使用BradleyÐTerry模型[Chu and Ghahramani 2005]从成对比较中计算等级来分析人类的评价结果。成对比较是从另外14个MTurk受试者那里收集的,这些受试者通过了与之前相同的注意力检查。使用了第6节所述的相同设置,但只比较了表2中的四个模型和人类手势。图8显示了结果。对于所有的问题,提议的方法取得了比Attentional Seq2Seq、Speech2Gesture和联合嵌入方法更好的结果,但在运动的人类相似性和语音śgesture匹配问题上,提议的方法和Speech2Gesture之间的差异并不明显。我们还通过使用Chi-Square Goodness of Fit测试,在成对选择的概率等于50%的无效假设下,测试了所提出的方法与其他方法之间的统计学意义(选择łundecidablež的不计算在内)。在偏好方面,建议的嵌入方法和联合嵌入方法之间的差异是显著的(P < 0.01)。在语音śgesture匹配方面,Seq2Seq和联合嵌入方法与提议的方法有显著差异(分别为p < 0.01和< 0.05)。
拟议的方法在客观上和主观上都显示出比以前的方法更好的结果。同时,在用户研究中,提议的方法大多与人类手势打成平手。这表明了所提方法的优越性,但我们不能断定所提方法的表现与人类一样好,因为实验中使用的胡人手势是基于从TED视频中自动提取的姿势,并且所有的运动都被重新定位到一个没有脸部或手部表情的受限角色。

7.3 消融研究

为了详细了解所提出的模型,我们进行了一项消减研究。我们从提议的模型中剔除了一些组件,这些组件被用于与最先进的模型进行比较。下表3总结了消减研究的结果。去除文本、音频和说话人身份的每一种模式都降低了模型的性能;这表明拟议模型中使用的所有三种模式都对手势生成有积极影响。在损失项中,去除对抗项和正则化项也使FGD恶化。特别是,当我们在没有对抗性方案的情况下训练模型时,该模型倾向于生成接近平均姿势的静态姿势。
尽管在消除不同的模式时,排除说话人的ID对FGD的影响最大,但与消除文本或音频模式相比,我们在运动质量的主观印象上没有发现明显的下降。因为没有divergence regularization 𝐿_𝐺^style ,整体的多样性减少了,而且FGD的特性是不仅衡量运动质量,而且衡量多样性。目前还没有具体的方法来分解FGD以及FID中的质量和多样性因素。然而假设拟合高斯的协方差矩阵与多样性的关系比与质量的关系更密切。协方差矩阵的迹为244,小于人类手势和没有文字或音频模式的模型(分别为299、258和250)。这间接表明,生成的手势在没有说话者ID和𝐿_𝐺^style的情况下,多样性较低。

文章通过一个额外的实验进一步验证了文本的效果。当输入语音中的一个词被改变时,在同时考虑文本和音频的模型和只考虑音频的模型中,生成的手势有什么不同。虽然考虑到文字和音频的模型在用 "hundreds "代替 "few "时产生了不同的手势(扩大手臂),但当我们使用只考虑音频的模型时,动作上只有轻微的变化。使用谷歌云TTS为原始文本和修改后的文本合成了语音音频。

我们还进行了上述文本改变的定量实验。对于从验证集中随机选择的1,000个样本,语音句子中的一个词被改成来自WordNet的同义词或反义词。如果有几个同义词或反义词,则选择与原词时间最接近的一个,以尽量减少语音音频的长度变化。由于选择样本和单词的随机性,我们使用了合成的音频,并且实验重复了10次。我们报告了文字改动前后生成的样本之间的FGD;这个测量方法与本文中所有其他的FGD测量方法不同,它比较了人类运动和生成的运动。考虑文本和音频的模型(2.433±0.483)显示出明显高于只考虑音频的模型(1.604±0.275)(配对t检验,p<0.001),表明同时使用文本和音频模式有助于根据语音文本的变化产生不同的手势。这一论点也得到了以下结果的支持:在同时使用文字和音频的模型中,当一个词被反义词取代时,FGD(2.567±0.484)明显高于被同义词取代时(2.299±0.467)(配对t检验,p < 0.05)。

7.4 融入合成的音频

许多人工代理使用合成的音频,因为录制一个人类的每一个字都是不可行的。我们测试了所提出的模型,用人类的语音音频进行训练,也可以用合成的音频工作。图10和补充视频显示了使用不同声音的合成音频的一些结果。谷歌云TTS[谷歌2018]被用在这个实验中。所提出的模型在不同声音、prosody、速度和停顿的合成音频中工作良好。当讲话速度快时,模型会产生快速运动。该模型还对插入的语音停顿作出反应,为沉默期生成静态姿势。

7.5 对学习到的风格嵌入空间的分析

建议的模型可以为同一语音生成不同的手势风格。图11显示了训练后的风格嵌入空间和对同一输入语音用不同风格向量生成的手势。为了仔细理解风格嵌入空间,我们用图中的标记颜色和形状来描述每个风格向量对应的说话人ID所生成的手势的运动统计。从红色到蓝色的颜色对应于较高和较低的时间运动方差。较大的运动方差可称为外向型风格,反之则为内向型风格。我们还分别计算了右臂和左臂的时间运动方差,并使用不同的标记形状来表示手部的风格。更多使用右臂和左臂的风格分别用▶和◀来描述,其余的用-来描述。如图11所示,类似的风格被聚类,用户在遍历了嵌入空间后,可以很容易地从嵌入空间中选择想要的风格。

8 结论和局限性

在本文中,我们提出了一个协同语音手势生成模型,从输入的语音中生成上半身的手势。我们提出了一个使用语音文本、音频和说话人身份这三种输入模式的时间同步架构。经过训练的模型成功地生成了与语音文本和音频相匹配的各种手势;不同风格的手势可以通过从风格嵌入空间中抽取风格向量来生成。一个新的指标,FGD,被引入来评估生成结果。使用合成的噪声数据验证了提议的指标,并测量了与人类判断的一致性。根据FGD指标和人的评价,提议的生成方法在客观和主观上都显示出比以前的方法更好的结果。我们还通过各种实验强调了所提模型的不同属性。该模型可以通过不同的声调设置的合成音频生成手势。此外,风格嵌入空间被训练成一个连续的空间,其中类似的风格分布紧密。
目前的研究还有改进的余地。首先,很难控制手势的生成过程。尽管风格操作是可能的,但用户无法对手势设置约束。例如,我们可能希望化身在说一个特定的词时做出一个表意的手势。大多数端到端的神经模型都有这个可控性问题[Jahanian等人,2020]。将目前的模型扩展到具有进一步的可控性是很有趣的,例如,通过在生成的中间加入约束性姿势。第二,FGD需要改进。在非语言行为中,细微的运动和大的运动一样重要,但是通过运动重建训练的特征提取器可能无法捕捉到细微的运动。此外,还有必要分别评估运动质量和多样性,以便在生成模型之间进行深入比较。第三,我们只考虑了上半身的运动,而包括面部表情和手指运动在内的全身运动应该被整合。从创建人工对话代理的长远角度来看,我们将追求将我们的模型与其他非语言行为和对话模型相结合。根据信息包装假说[Kita 2000],手势与言语有很深的关系,所以一个综合的模型将言语和手势一起生成,可以更有效地传递信息。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值