【20220428】文献翻译7:语音驱动模板:用学习到的模板进行共语手势合成

摘要

协同语音手势生成是指合成一个手势序列,不仅看起来真实,而且与输入的语音音频相匹配。我们的方法可以生成一个完整的上半身的动作,包括手臂、手和头部。尽管最近的数据驱动方法取得了巨大的成功,但挑战仍然存在,如种类有限、延迟性差和缺乏客观指标。由于语音不能完全确定手势,我们设计了一种方法,学习一组手势模板向量来模拟潜在的条件,从而缓解了模糊性。对于我们的方法,模板向量决定了生成的手势序列的一般外观,而语音音频驱动身体的细微运动,这两者对于合成真实的手势序列都是不可或缺的。由于手势语音同步的客观指标的不可控性,我们采用唇语同步误差作为代表指标来调整和评估我们模型的同步能力。广泛的实验表明,我们的方法在客观和主观评价上都有优越性,即延迟性和同步性。1

1. 简介

我们人类一直热衷于制造自己的复制品。在生成显性行为方面已经取得了许多成功,如唇语同步[31]、脸部交换[33]或姿势重新定位[8]。但是合成人类的隐性行为,在合成逼真的数字人类方面起着关键作用,却远没有得到探索。共话手势就是这样一种隐性行为,指的是某人说话时身体部位的运动,它传达了丰富的非语言信息,如情绪、态度和意图。

早期对共同语言姿态合成的尝试主要是基于规则的[7, 22, 35],由于非语言信息过于微妙,无法用规则来描述,因此自然性很差。后来的努力[25,15,23,14,12,37]通过从收集的数据中学习人类的行为来超越。数据驱动方法的一个不可忽视的障碍是,从语音音频到可能的手势的映射的多模态性。这意味着对于相同的输入音频,存在多种可行的解决方案,因此直接回归到基础真实的手势会产生不一致的偏向性映射(inconsistently biased mapping),使模型无法学习到数据集中的差异。在最近的方法中,应对这一挑战的常见方法是对抗学习[14,1,37],判别器缩小生成的和真实的差距。然而,这只能提高手势的真实性,而与手势-语言同步无关,甚至对手势-语言同步造成伤害。因此,只要我们期待稳定的同步质量,回归损失就应该是核心监督。

鉴于回归损失是我们学习手势-语言同步的唯一监督手段,而输入的音频并没有提供足够的信息来完全确定一个手势序列,我们用一个条件向量来补充输入。这个条件向量提供了缺失的信息(例如,习惯、情绪或以前的状态),以排除groundtruth以外的手势,从而将从一到多的映射转变为一对一(Figure 2a)。具体来说,我们给每个配对的音频-手势序列分配一个零向量作为初始条件,并在训练时与网络的参数一起更新向量以使回归损失最小。这里的原理是,如果网络能够仅仅通过音频轻松地回归到目标手势序列,那么条件向量将保持不变;否则,条件向量将被更新,以揭示差异。

Figure 2

从所有学习到的条件向量中,我们可以选择一个并从任何音频片段中生成一个手势序列。通过切换条件向量和语音音频,我们观察到一个有趣的现象:条件向量起到了手势模板的作用。条件向量决定了生成的序列中手势的一般外观,而音频输入则在手势模板上添加了细微的动作,使之与语音相匹配。因此,我们把这些条件向量称为模板向量,以利于我们的方法。在Figure1中,我们展示了用两个不同的模板向量从同一语音音频中生成的两个手势序列。所产生的手势显然是不一样的,但在手、头和嘴唇的动作上仍然匹配得很好,显示了我们的方法的精确性、多样性和同步能力。

Figure 1

既然我们可以通过反向传播来学习模板向量,为什么我们不直接通过重建来学习它们呢?
因此,我们训练一个VAE(Variational AutoEncoder[20])来模拟手势序列的分布。有了这个VAE模型,我们可以将真实的手势序列编码到模板向量中,并学习它和语音音频到真实手势序列的一对一映射。此外,还可以对模板矢量进行解码,使其对应的手势序列可视化。通过Back-propagation或VAE,我们得到了一组模板向量,它们不仅有助于降低训练时的回归损失(图2b),而且还可以进行变量生成,因为我们可以从学到的模板向量中取样,以操纵合成手势序列的一般外观。

虽然以前的合作语音手势工作[14,1,37]将手势的范围限制在手和胳膊上,但我们主张将头部动作纳入合作语音手势,这不仅是为了使上半身的合成更加统一和协调,也是为了便于评估。由于手势同步的模糊性,现有的工作在很大程度上依赖于主观的评价。我们建议采用唇部回归误差作为代表指标,假设要很好地学习手势同步,一个模型应该能够很好地学习唇部同步,因为它们都依赖于语音,而后者的确定性要强很多。此外,为了评估生成的手势序列的保真度(fidelity),我们训练的VAE可以用来计算Fr´echetTemplateDistance(FTD),类似于Yoonetal.[37]提出的FGD,测量生成的手势序列和真实手势序列在特征空间中的分布相似度。

贡献:

  • 以条件学习方式进行的音频驱动的手势合成,通过对模板向量的学习,缓解了共语手势合成的模糊性,在不影响同步质量的前提下,提高了手势的保真度和多样性。
  • 客观评价指标:唇部同步误差(lip-sync error);评估手势保真度(Fr´echetTemplateDistance,FTD)
  • 在主观和客观的测试中显示了方法优越的合成质量,并提供了学习到的模板向量的直观的可视化。

2. 相关工作

共语手势生成:合成共语手势一直是机器人学[24, 16, 38]、图形学[2, 37]和视觉[14, 1, 26]领域的一个活跃话题。这项任务的最新趋势是使用 in-the-wild 视频[14, 1, 38],而不是用传感器在实验室场景中收集的视频,从而扩展合成手势的种类。然而,正如Ginosar等人[14]所说,在实现真实的共话手势生成的道路上,一个障碍是任务的模糊性,这导致了数据的不足和结果的缺乏表现力。尽管如Ginosaretal[14]所做的那样,对抗性学习可以被纳入以增强手势的保真度,但他们的模型仍然严重依赖回归损失来产生与音频同步的手势,所以结果是确定性的,没有变化。Ahuja等人[1]通过将每个手势嵌入到一个跨主体的共同风格空间中,实现了风格转移或保留,并对风格嵌入进行了切换,从而分离了手势的风格和内容。然而,这些风格是以每个主题的方式定义的,每个主题只有一个典型的手势。Alexanderson等人[2]介绍了基于归一化流[27]的概率模型MoGlow,以模拟从手势到高斯分布的映射,条件是输入的音频。这个模型在推理时从高斯和分布中抽取平坦的矢量,因此能够优雅地模拟一对多的映射。然而,归一化流[27]模型只支持线性操作,限制了模型的表现力。我们的模型通过模板向量学习缓解了一对多映射的模糊性,并在推理时通过对模板向量的采样完成了多样化的生成。

除了生成的方法,另一个巨大的挑战是评估。由于共语手势的模糊性,以前的方法主要是通过人的研究来展示其方法的有效性[14,1,2],这是合理的,但不客观。至于在[14,1,2,37]中报告的客观指标,如L1/L2距离、PCK(正确关键点百分比),它们都是基于生成的和ground-truth之间的距离,在较低的误差和较大的多样性之间形成矛盾。Yoonetal[37]提出的FGD(Fr´echet Gesture Distance)是对客观指标的一个鼓舞人心的尝试,它衡量的是特征空间中的分布相似性。

说话的头像和唇语同步:与以往的共语手势合成方法不同,我们将头部作为手势的一部分,不仅是为了上半身代表的完整性,也是为了头部运动所传达的不可或缺的非语言信息。有代表性的脸部操作方法[33, 36, 39, 5, 13]是在姿势转移范式中设计的,它从目标视频中继承脸部标记或模型参数[4]。另一种方法[19, 11, 10, 34, 28, 32]侧重于对面部表情或嘴唇的操作,并给出一段语音音频。Karras等人[19]学习了一个潜在的代码来模拟情绪状态。Prajwal等人[28]以一种非正常的方式训练鉴别器,以增强唇部同步性。这些方法在嘴唇和语音之间实现了合理的同步,但是他们的运动器只能手动控制头部姿势,产生不匹配的头部运动。后来,Chen等人[9]和Yang等人[40]对头部运动进行了明确的建模,以提高说话时头部的自然度,但其同步性
但没有进一步评估同步化的质量。

3. 方法论

综合解决方案:给出一段语音音频作为输入,我们生成一串具有自然姿势和同步动作的手势。Figure 3显示了我们模型的概况。

Figure 3

从形式上看,对于一个音频片段,我们按照以前的方法[14,2],将音频波形转化为mel谱,这是一个2D图,两个轴是时间和频率。然后我们将其送入一个音频编码器,得到音频特征A∈R256×F,其中F是帧数。作为另一个输入,我们的网络输入了一个模板向量t∈RC,并将其副本堆叠成模板特征T∈RC×F,以对齐音频特征的时间线。因此,我们模型的完整输入是[A|T]∈R(256+C)×F,是音频特征A和模板特征T的拼接。

我们的手势生成网络是一个类似于UNet的一维卷积神经网络,它通过7层编码器、6层解码器和跳过连接在时间上滑动。

输出是一个手势序列G∈R2K×F,其中2 K对应于一帧中K个上半身关键点的二维坐标,包括面部、手部和手臂。

在一个回归的手势序列G上应用L1回归损失作为一个主要的监督:
L r e g = 1 F ∑ i = 1 F ∥ G ( i ) − G ^ ( i ) ∥ 1 \mathcal{L}_{\mathrm{reg}}=\frac{1}{F} \sum_{i=1}^{F}\left\|\mathbf{G}^{(i)}-\hat{\mathbf{G}}^{(i)}\right\|_{1} Lreg=F1i=1F G(i)G^(i) 1
其中G(i)和ˆG(i)是G的第i帧中的预测和ground-truth姿态向量

图像合成:为了便于对生成的手势序列进行视觉评估,训练了一个图像扭曲和翻译模块,其灵感来自Balakrishnan等人[3]。对于每一帧图像,首先将源图像中每个身体部位的像素通过局部变形扭曲到目标位置,以获得一个粗略的结果,然后将粗略结果和关键点的热图连接到图像翻译网络,作为一个重构。在训练过程中,源和目标对被随机组合。

3.1 用所学条件补充音频

我们主要依靠回归损失来训练我们的模型,因为它是对与音频同步的手势序列的唯一可靠的监督来源。然而,由于从语音音频到手势序列的映射不是排他性的,也就是说,存在许多其他可行的手势,简单地回归到ground-truth的手势序列会造成模糊性,导致结果过于平稳。

为了消除这种模糊性,我们应该向我们的模型提供更多的信息。具体来说,我们还提供了一个条件向量,如Figure2a所示。在这里,我们希望条件向量能缩小潜在手势的范围,而不是指向一个特定的静态手势;否则,输入音频的作用将被削弱,这将损害手势与语音的同步性。为此,我们为每个短的手势序列(约4秒长)分配一个条件向量,而不是每一帧,并从音频和条件向量回归到ground-truth的手势序列。这就解除了语音和手势之间的模糊性,为我们的方法奠定了基础。

我们把这个条件向量称为我们方法的模板向量,因为这个向量决定了生成的手势序列的一般外观,而输入的音频则添加了细微的动作,以匹配手势序列,就像模板和内容之间的关系。

通过反向传播学习模板:我们将每个语音手势对的模板向量初始化为零向量,假设它们受到相同条件的制约。训练时,我们对回归损失进行反向传播,同时更新模板向量和UNet的参数。这意味着模型的训练不需要额外的信息,因为所有的模板向量都被设置为零;当发生歧义时,模板向量将被更新以解除歧义。通过存储训练好的模板向量,我们从数据集中提取每个样本的潜在条件。

为了使模板向量空间正规化,我们应用KL发散损失:
L K L = D K L ( N ( μ t , σ t 2 ) ∥ N ( 0 , 1 ) ) \mathcal{L}_{\mathrm{KL}}=D_{\mathrm{KL}}\left(\mathcal{N}\left(\mu_{\mathbf{t}}, \sigma_{\mathbf{t}}^{2}\right) \| \mathcal{N}(0,1)\right) LKL=DKL(N(μt,σt2)N(0,1))
其中,µt∈RC和σ2 t∈RC是一个mini-batch中模板向量t的平均值和方差。总损失函数的定义如下:
L = λ reg  L r e g + λ K L L K L \mathcal{L}=\lambda_{\text {reg }} \mathcal{L}_{\mathrm{reg}}+\lambda_{\mathrm{KL}} \mathcal{L}_{\mathrm{KL}} L=λreg Lreg+λKLLKL
其中λreg和λKL是应用于损失项的权重。我们在实验中设定λKL = 1,λreg = 1

通过反向传播更新模板向量带来了几个好处。首先,回归损失的收敛速度低于从音频中进行的普通回归,这表明对训练集进行了更好的调整(见Figure2b)。第二,我们的模型可以通过从训练好的模板向量中抽取任意的模板向量来产生不同的手势,同时保持高度同步的手势和嘴唇。第三,模板向量的插值导致手势的平滑变化,如换手和改变头部方向,显示了一个紧凑的条件空间

尽管有上述好处和启发,这种方法仍然有一些限制。首先,由于模板向量是以样本方式分配的,每个模板在一个历时中只被使用和更新一次,这就需要仔细调整超参数(如学习率、历时数)以让模板向量收敛。第二,尽管我们可以观察到由模板切换引起的手势变化,但我们无法对模板进行解释。第三,我们只能进行从模板向量到手势序列的映射,而不能进行反方向的映射

通过重构学习模板:为了解决上述限制,我们考虑用VAE[20]来重建学习模板向量。这个VAE首先将一个真实的手势序列ˆG编码成一个平均向量μt∈R C和一个方差向量σ2 t∈RC,然后将它们解码成一个重建的手势序列G。同样,它也是通过在时间线上滑动的1D卷积建立起来的,并且还用L1损失和KL-分歧损失进行训练

在VAE被训练后,它被冻结,作为模板向量提取器用于第3.2节所述的FTD的计算

3.2 同语手势生成的评估

以前的方法对共语手势的常用评估指标,如L1/L2距离、准确度或PCK(正确键点的百分比)都不理想,因为它们所测量的是生成的样本和ground truth之间的距离,忽略了给定音频片段的可行手势的多样性。因此,以这些指标为目标将导致枯燥和缺乏表现力的合成。

直观地说,一个好的手势合成应该至少满足两个要求:自然性和同步性;但它们都不容易用基于距离的指标来衡量。接下来,我们分别从同步性和自然性的角度提出了两种手势评估的指标。

唇部同步是一个代表指标:与身体手势的多样性不同,嘴唇的形状几乎是一致的,因为发音时通常需要特定的嘴形。另外,我们观察到在验证集上,嘴唇关键点的回归损失比其他的收敛性更好,这证明了从语音音频到嘴唇的映射的一致性。

因此,我们采用生成的唇部关键点与ground-truth之间的距离作为整个手势同步测量的代表指标。这个代表度量的作用有两个原因。1)唇部关键点和其他关键点都有相同的网络和特征,我们的方法对唇部同步没有特殊设计;2)虽然好的唇部同步质量不能保证良好的手势质量,但唇部同步的退化是不良手势同步的一个很好的警告信号。

从形式上看,我们使用的代理指标是归一化的唇音误差:
E l i p = 1 F ∑ i = 1 F ∥ d ( i ) − d ^ ( i ) ∥ 2 max ⁡ 1 ≤ n ≤ F d ^ ( n ) \mathcal{E}_{\mathrm{lip}}=\frac{\frac{1}{F} \sum_{i=1}^{F}\left\|d^{(i)}-\hat{d}^{(i)}\right\|_{2}}{\max _{1 \leq n \leq F} \hat{d}^{(n)}} Elip=max1nFd^(n)F1i=1F d(i)d^(i) 2
其中,d(i)是生成的手势序列G的第i帧中上下唇中心关键点之间的距离,而ˆ d(i)是ground-truth手势序列ˆ G的相应距离。

弗雷谢模板距离(Fr´echet Template Distance):如前所述,直接测量生成的手势序列与ground-truth之间的距离不适合多样性。在此,我们引入FTD(Fr´echet Template Distance)作为FID(Fr´echet Inception Distance)的一个变种[17]。FTD测量的是合成的序列和ground-truth的序列之间的分布距离,而不是单一的样本。因此,为了获得更好的FTD分数,生成的结果不仅要自然而且要多样化。

在我们的实验中,FTD在整个测试试验中的计算方法如下:
F T D = ∣ μ t − μ t ^ ∣ 2 + tr ⁡ ( Σ t + Σ t ^ − 2 ( Σ t Σ t ^ ) 1 / 2 ) \mathrm{FTD}=\left|\mu_{\mathbf{t}}-\mu_{\hat{\mathbf{t}}}\right|^{2}+\operatorname{tr}\left(\Sigma_{\mathbf{t}}+\Sigma_{\hat{\mathbf{t}}}-2\left(\Sigma_{\mathbf{t}} \Sigma_{\hat{\mathbf{t}}}\right)^{1 / 2}\right) FTD=μtμt^2+tr(Σt+Σt^2(ΣtΣt^)1/2)
其中μt和Σt是模板向量[t1,t2,…,tN]的平均向量和协方差矩阵,由合成的手势序列[G1,G2,…,GN]编码,在测试集中使用第3.1节所述的VAE,其中N表示测试集中的样本数。µˆ t和Σˆ t是ground-truth的对应物。

4. 实验

数据集:我们在Speech2Gesture[14]数据集上测试了我们的方法,因为它是唯一一个为上半身提供完整注释的数据集,尤其是脸部关键点。然而,由于其他演讲者的脸部和手部关键点的质量不高(用OpenPose[6]获得的伪标签),我们只报告了这个数据集中两个演讲者Oliver和Kubinec的结果。关于其他说话者的结果,请参考补充材料。此外,我们还收集了两个讲普通话的人的数据,即Xing和Luo,以测试我们方法的通用性。四个说话者的视频片段在人工修正了错误的注释后,总长度约为25.13小时。我们对每个说话者单独进行模型训练,因为我们专注于说话者特定的手势学习。

评价:我们报告了三个用于公平比较的客观指标:1)L2距离,直接测量预测和ground-truth之间的距离;2)归一化唇齿同步误差(Elip),作为手势同步的替代指标;3)Fr´echet Template Distance(FTD),作为保真度的测量。

我们进行了一项广泛的人类研究,将我们的方法与基线进行感知比较,并验证我们提出的目标度量的可行性。我们用不同的方法从相同的语音音频中产生的手势序列制作了视频,然后将其作为在线调查问卷发布,供人类评估。对于四位演讲者的每一个,我们随机抽出8段语音音频用于视频生成。对于每份问卷,我们从每个说话者的8段视频中随机选择至少2段,形成一份有10段视频的问卷。在测试中,参与者会逐一接触到这10段视频。每段视频都与音频同步显示竞争方法的结果。测试结果通过字母进行匿名处理,并通过骨架图和合成图像进行可视化处理。在观看完每段视频后,每个人都被要求做出三个选择。1)具有最佳唇部同步质量的选择;2)具有最佳手势同步质量的选择;3)具有最自然手势的选择。最后的结果是由每个问题中被选为最佳的方法的平均百分比计算出来的。测试结束后,我们总共收集了65份有效问卷。

实施细节:在准备数据时,我们将视频分割成64帧、15FPS(约4秒)的短片段。为了消除不同发言人和视频分辨率之间的比例差异,我们根据他们的平均肩宽对每个发言人的骨架进行了重新缩放。在所有的实验中,我们将模板向量空间的尺寸定为C=32。尽管我们的方法对C并不敏感,但过大的维度会导致手势同步的退化,而过小的维度则会限制模板空间的表现力。我们在训练和测试中都使用batch size=32的规模。我们用Adam优化器对我们的模型进行100次训练。我们使用0.0001的学习率,并在第90和98次历练时将其缩放10次。测试时,我们从训练过的模板向量中随机抽出一个模板向量,与训练集中的片段相对应,使我们的结果具有多样性和非确定性。

4.1 学习模板的回归

作为我们方法的核心,模板向量学习使我们有可能仅仅通过回归损失来学习从一段语音音频到可行的手势序列的一对多的映射。在Table 1中,我们显示了不同模板组合的定量比较。没有模板的模型得到了最差的FTD,表明所学手势的表达能力很差。相反,有框架的模板向量的模型得到最差的lip-syncerror(Elip),表明手势的退化。这是因为每帧模板向量的表现力过强,因为模型可以简单地将每帧手势存储在每帧模板向量中,而无需从音频信号中提取信息。同时,我们的模型采用片段式模板向量(通过反向传播或VAE学习),在同步性和表现力之间取得了最佳的平衡,并具有相对较低的滑动同步误差和FTD.换句话说,我们采用片段式模板的模型产生了更多的手势,对同步性几乎没有损害。

Table 1

为了证实我们结果的多样性,我们使用我们训练好的VAE的编码器来获得ground-truth和生成的手势序列的相应模板向量,并通过PCA将其投影到2D平面上。如Figure 4所示,对于没有模板的模型,编码的向量聚集在原点周围。与此相反,我们从clip-wise模板得到的结果的编码向量跨越了更大的空间,显示出更大的多样性,这与Table 1中较低的FTD值相一致。

Figure4

4.2 与baselines相比

基线:Speech2Gesture[14]是一个完全卷积的模型,它直接从mel谱图回归到手势序列中。为了增加面部的关键点,我们扩大了最后一个卷积层的通道数量。为了在回归损失和对抗损失之间取得最佳平衡,我们将后者的权重设定为0.1。Audio to Body Dynamics[30]是一个具有独立LSTM[18]模型的序列模型,用于回归身体和手的关键点。我们为面部关键点增加了一个LSTM模型。按照原来的配置,我们输入了一个28通道的MFCC。我们将LSTM模型的隐藏层尺寸从原来的200调整到800,以获得最佳性能。MoGlow[2]是一个基于normalising flows的概率手势发生器[27]。我们修改其输出通道以适应我们的任务。为了获得更好的性能,我们输入mel-spectrogram而不是MFCC,并设置隐藏层的维度H=800,归一化步骤的数量K=12。

客观比较:我们将我们的模型与上述四个发言人的基线模型进行比较。如Table 2所示,我们的模型在所有演讲者中产生最小的归一化唇语误差和最小的FTD,这表明了卓越的手势同步性和表现力。同时,我们的模型产生了相对较高的L2距离。这是可以预期的,因为我们的结果是用随机采样的模板向量产生的,它不应该总是符合 ground truth的手势。

Table 2

主观比较:为了对各种方法进行感知比较,我们邀请志愿者观看匿名的结果,并在三个方面选择最好的。人类研究中使用的合成图像的例子显示在Figure 7中。根据 Figure 5中的柱状图,我们的模型比基本模型显示出明显的优势。值得一提的是,这项人类研究验证了唇部同步和身体同步的性能之间的强烈关联,这支持了我们采用归一化唇部同步误差(Elip)作为替代指标来衡量图像与语音音频不同步的程度的建议。

Figure 7

Figure 5

4.3 模板空间可视化

为了更好地解释模板向量,我们探讨了向量空间的特性。我们通过将一个特定的模板向量及其相反的向量分别送入我们训练好的VAE解码器,使其对应的手势可视化。我们不需要手动选择模板向量,而是采用Shen和Zhou[29]提出的用于发现潜在语义的闭式因数化(closed-form factorization)算法。以VAE解码器第一层的权重矩阵为例,我们进行特征值分解,并保留具有最大特征值的特征向量。从Figure 6中Oliver和Xing的结果来看,我们观察到高度的语义对称性,如头和手的位置和方向。

Figure 6

4.4 消融实验

转移实例规范化(Transposed Instance Normalization):在我们的实验中,我们观察到用IN(实例归一化)代替BN(批量归一化)对Elip和FTD有明显的改善,如Table 3的第一和第二行所示。然而,采用IN的模型会产生高频振动的结果。因此,我们提出了转移实例规范化(IN∗),在关键点(B,2K,F)而不是帧(B,2K,F)的尺寸上进行归一化。这个操作产生了具有可比性的稳定姿态序列(表3的第3行)。

Table 3

层次化的手势表示:考虑到人体的运动学,我们试图通过一个具有独立根节点的面部、手臂和手的分层身体表示法来解耦身体部位。对比表3的第3行和第4行,我们可以看到唇语同步(Elip)方面有明显的改进。

5 结论

本文旨在合成一个完整的上半身的手势序列,给定语音音频作为输入。基于语音不能完全决定手势的事实,我们建议学习一套手势模板,以缓解模糊性并增加合成手势的多样性和保真性。此外,我们还建议使用归一化的唇部同步误差作为手势同步的替代指标,并使用FTD来衡量手势的保真性。对两种语言的四位发言人的定量和定性结果显示了我们方法的优越性。

附录A:数据集的统计量

由于OpenPose[6]在高度遮挡情况下的局限性,姿势的伪标签是有噪声的,尤其是手和嘴。另外,在有些情况下,一个画面中会出现多个人物,这使得模型很难学习到稳定的姿态。因此,对于以下任何一种情况,我们都要剔除一帧:

  • 一些伪标签的关键点明显不正常(例如,位于画面的左上角)
  • 一帧里面检测到了多个人

经过上述数据清理程序,我们使用的数据统计数字见Table 4

Table 4

在这四位发言人中,Oliver的视频最长。因此,对Oliver的预测看起来是最生动和自然的,这是合理的。然而,我们对Kubinec和Xing的研究结果表明,用两小时左右的视频就能了解一个人的姿态风格。

附录B:额外定量分析结果

尽管Speech2Gesture[14]数据集包括10个说话者(9个可在线获得),但并不是所有的都适合我们的需要。例如,Almaram的手通常是封闭的,所以手和胳膊的关键点不在视线范围内;Angelica的视频可能包含其他人的电话讲话,这带来了模糊性;Kagan经常走动,这导致面部和手的关键点有噪音。尽管如此,我们仍然对他们每个人进行了模型训练,并在Table 5中显示了定量结果。

Table 5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值