【20220429】文献翻译8：对实体对话智能体中手势生成的评估实践的回顾

最新推荐文章于 2024-09-26 17:23:00 发布

Yang SiCheng

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量1k

点赞数

分类专栏：小白学习文章标签：人工智能自然语言处理深度学习 python 大数据

本文链接：https://blog.csdn.net/qq_41897800/article/details/124479536

版权

小白学习专栏收录该内容

25 篇文章 10 订阅

订阅专栏

Wolfert, Pieter, Nicole Robinson, and Tony Belpaeme. “A review of evaluation practices of gesture generation in embodied conversational agents.” IEEE Transactions on Human-Machine Systems (2022).

Agents：智能体

摘要

实体对话智能体（Embodied conversational agents，ECA）

产生非语言的表现去补充或增强语言交流，例如与胳膊和手有关的共语手势（基于规则/数据驱动）
关于手势生成方法的报告使用了各种评价措施，这阻碍了比较
基于22项上身手势ECA研究，回顾标志性的、隐喻性的、描述性的或节拍性的姿态的生成方法，包括他们的评价方法，包括一项用户研究去评估他们的表现
大多数研究利用主体内（within-subject）设计，依赖主观性评价，但是缺少一种系统的方法
方法学的质量是低到中等的，很少能得出系统的结论。需要严格和统一的工具来评估共语手势。我们为未来的实践评估提出建议，包括标准化短语和测试场景来测试生成模型。我们提出了一个研究清单，可以用来报告生成模型的评估以及评估共语手势的使用的相关信息。

关键词：人机互动、虚拟互动、人机界面、社会机器人学

1 简介

交际语义学的很大一部分来自于面对面交流的非语言因素（如姿势、手势、面部表情、凝视、近义词和触觉），所有这些元素都传达了不同类型的意义，它们可以补充或改变交流的语义部分。即使是最小的元素也能为互动提供明显的贡献。例如，在人类受试者和机器人之间的问答环节中，眨眼和点头被发现影响了反应的时间[2]。

非语言交流的一个重要组成部分是使用手势–手、臂或身体的运动–来强调一个信息，传达一个想法，或表达一种情感[1]。人类在日常生活中经常使用手势，比如在我们的视觉空间中指着物体，或者表示物体的大小。共话手势是伴随着说话的手势。McNeill[3]将共语手势分为四种：标志性（iconic）手势、隐喻性（metaphorical）手势、节拍性手势和脱词（听写、指示）性（deictic）手势。标志性手势和隐喻性手势都带有意义，用来从视觉上丰富我们的交流[4]。一个标志性的手势可以是一个上下移动的动作，以表示，例如，切西红柿的动作。相反，一个隐喻性的手势可以是一个空的手掌，用来象征 “提出问题”。换句话说，隐喻性手势与它们所传达的概念有一种任意的关系，而标志性手势的形式则与所传达的概念有视觉上的联系。标志性手势和隐喻性手势不仅在内容和表现形式上有所不同，而且在大脑中的处理方式也不同[5]。节拍手势不带有语义，它们经常被用来强调说话的节奏。事实证明，节拍手势既能促进说话，也能促进单词的回忆[6], [7]，是最常见的手势类型[3], [8], [9]。最后，描述性手势被用来指出感兴趣的元素或传达方向。它们不仅能增强口语交流，还能促进学习[10]。本介绍的其余部分包括ECA中的手势研究、评估方法、回顾目的和目标。

1.1 人机交互中的手势使用

ECAs的非语言行为，影响对所传达信息的感知和理解。例如，当ECA使用指示和节拍手势时，与ECA不使用手势时相比，参与者从ECA的叙述中回忆起更多的事实。当机器人将手势与其他互动的社会行为（如眼神）结合在一起时，与不使用这些技术的情况相比，机器人可以被认为更有说服力

手势受节奏和语义内容影响，以前手势生成基于规则，一项值得注意的做法是提供了多模态行为生成框架的Behavior Markup Language (BML)（还包括身姿、点头和目光）

基于数据驱动的方法，依赖于训练数据和所使用的神经网络的结构，一些方法学习从语音信号的声学特征到手势的映射[30], [31]。现在，基于音频信号的方法在创造动态的、有韵律的节拍方面要好得多，基于文本的方法在生成标志性手势和隐喻类手势表现更好。但是只基于语音音频信号的方法常只生成节拍性手势。Kucherenko等人[32]最近的工作将用于生成节拍手势的神经网络与用于生成标志性手势的顺序神经网络相结合，免除了对基于规则的混合方法的需求。

1.2 手势评估的客观和主观方法

客观评测：joint speed, joint trajectories, jerk（抽搐）, or the Frechet Gesture Distance。客观指标不一定是用于训练神经网络的指标。损失函数只是显示生成的手势与ground truth之间的远近，并不包含动态性和自然性。包含一项用户研究的主观评测：评价性能维度例如，生成的运动感知的自然度，手势时间感知的适当性，"语音-手势相关性 "或 “自然度”[28]，[36]。这些通常使用一个李克特量表中的几个项目进行评估。在人机交互中，问卷使用Godspeed questionnaire或从这些文书中选定的次级项目。Godspeed questionnaire能够在一个非领域特定的测量中评估ECA的感知，并量化ECA的人类相似性、生动性、友好性和感知的智力[37]。其他方法测量ECA的手势对用户的影响，如听众对口语材料的理解和回忆[18]，[19]。Ferstl等人研究设计和减轻虚拟现实中手部跟踪损失的影响的策略进行了比较。在他们的实验中，他们通过比较几种评估策略，显示了提出 "正确 "问题的重要性。手势评估中，标准、有效的评估方法不存在。

由于客观和主观措施是评估所产生的交流行为质量的核心，标准化的评估方法和统一的报告措施方式将有助于提高该领域的质量。

1.3 回顾的目标

鉴于手势对人机互动的重要性，有效识别和评估手势的适当性的能力是至关重要的。然而，在为ECA生成共同语言手势的领域，还没有标准化的生成和评估协议。一个标准化的调查问卷、措施或协议将使比较来自不同来源的工作更加有效，并允许更可靠地报告结果，以证明随着时间的推移，改进。完成对该领域以往工作的全面回顾和分析，将有助于了解迄今为止所取得的成就，并有助于建立一个具有系统报告方法的拟议协议，可用于对手势生成方法及其产生的手势进行更有力的评估。

在本文中，我们提出了一个系统回顾，该回顾遵循系统回顾和元分析的首选报告项目（PRISMA）协议[39]，以确定和评估用于共语手势的评价方法。鉴于共语手势生成方面的工作正在扩大，创造新的手势集的新技术正在出现，而至今还没有提供系统的评估方法，我们认为这一回顾是及时的。在这次审查的中心，我们有三个研究问题：

用什么方法来评估共语手势的产生？
哪些方法可以被认为是评估共语手势的最有效方法？
哪些方法和相关的衡量标准应该被调整，以创建一个标准化的评估或报告协议？

这些研究问题将被用来制定关于如何利用客观和主观指标来评估ECA的协同语音手势性能的建议，包括创建一个标准化的测试和报告方法。

2 方法论

2.1 搜索策略

本综述着重于对具身对话代理的共同语音手势生成方法的评估研究。为了提取数据，我们查阅了三个数据库。IEEE Explore, Web of Science, 和Google Scholar。选择IEEE Explore是考虑到它捕捉了大量的计算机科学和工程方面的出版物。使用Web of Science和Google Scholar是因为它们提供了对多个数据库的访问，其覆盖范围超出了计算机科学和工程。数据和记录提取发生在2020年4月8日和6月25日，以收集新的记录。两位作者进行了独立的数据提取步骤，以减少相关论文在回顾中被遗漏的机会，这包括对所包括的记录进行相互检查。数据库使用四个不同的关键词组合进行查询，其中搜索引擎会在关键词之间添加 “AND”。1）“社交机器人的手势生成（gesture generation for social robots）”，2）“共语手势生成（co speech gesture generation）”，3）“非语言手势生成（non verbal gesture generation）”，以及4）“非语言行为生成（nonverbal behavior generation）”

2.2 资格 - 纳入和排除

采用了以下纳入标准：

1）ECA论文必须报告机器人或具身代理的手势生成情况
2）ECA系统必须是人形的，有一个或两个类似人类的手臂和/或手，可用于向人类发出信息或信息的手势
1. ECA系统必须显示多种手势（即至少有2种不同的手势，其中一种必须是节拍性、标志性、隐喻性或描述性手势）
1. 由ECA系统创造的手势必须是在多模式社会互动中会出现的手势
1. ECA论文必须报告在实验室、野外或通过在线平台远程进行的用户研究（即不使用技术合作者或作者进行评估）
6）ECA系统必须由人类评价者对其性能进行评价（直接或间接）

为了缩小搜索结果，我们使用了以下排除标准：

1）论文包含一个非类人代理，缺乏典型的类似人类的手来做手势
2）论文没有明确的重点评价共语手势，即少于论文50%的辅助措施
3）论文只涉及节拍手势的生成
4）论文是未发表的、博士论文、评论、技术论文或预印本
5）论文不是用英语写的

只包括节拍手势生成的提取记录被记录下来，但被排除在主要分析之外，因为这些记录依靠音频输入来生成节拍手势。因此，这些节拍手势生成系统没有考虑到语义信息。相反，在PRISMA协议之外提供了一个单独的分析，只考虑节拍手势方面的工作，因为我们确实认为节拍手势生成方面的工作很重要。

3 结果

在本节中，我们将讨论我们的文献搜索结果。首先，我们讨论找到的文章，然后讨论不同ECA的用法。然后，我们讨论了实验中参与者样本的特点，实验的设计，以及客观和主观评价的使用。最后，我们介绍了我们对只包含节拍手势生成的论文的分析结果。

3.1 精选文章

在三个独立的数据库中进行的初步搜索产生了295篇论文，其中有92条重复的记录。在最初的排除步骤中，总共对203篇论文的标题和摘要进行了筛选，结果有113篇论文因不符合所有的纳入标准而被省略。对剩下的90篇论文进行了详细的评估，审查了正文的资格。68篇不符合条件的论文符合一个或多个排除标准，因此被放弃了。这样，就有22篇论文符合所有的纳入标准，而没有任何排除标准。Figure 2 显示了PRISMA流程图和这个过程的结果。从稿件中提取的信息包括出版年份、地点、设计和条件、生成方法、客观指标、主观指标、ECA的类型、评估类型（在线、野外或实验室）、参与者、参与者的特征以及与实验相关的其他重要说明。

Figure 2

3.2 对话实体智能体

在纳入的22项研究中，16项研究（73%）使用了不同的类人机器人，如NAO（n=3，14%）、ASIMO（n=3，14%）或Wakamaru（n=2，9%）。只有6个（27%）报告使用了虚拟智能体（即[40]-[45]）。所有的虚拟代理都是以三维模型作为虚拟人，不同研究中的代理没有一致的特征。在6项研究中，4项使用女性化身[40]、[42]、[43]、[45]，1项使用男性化身[41]，1项研究使用两者[44]。在使用化身的研究中，有一半只展示了上半身[41]、[43]、[45]，而另一半则展示了全身化身[36]、[42]、[44]。在所有使用头像的研究中，都没有提供关于手的具体描述。在19项（87%）研究中，ECA执行了标志性的手势，并与其他手势相结合[18]-[20]、[33]、[36]、[40]、[43]、[45]-[55]。

Nao (pronounced now) is an autonomous, programmable humanoid robot, The robot’s development began with the launch of Project Nao in 2004; https://www.softbankrobotics.com/emea/en/nao
ASIMO (Advanced Step in Innovative Mobility) is a humanoid robot created by Honda in 2000. ;https://www.honda.com.br/motos/blog/asimo-o-robozinho-que-encantou-o-mundo

17项（77%）研究[18]-[20]、[33]、[36]、[40]-[43]、[45]-[48]、[51]-[54]中使用了隐喻性手势，同时还有其他手势。在13项（59%）经审查的研究中[18]-[20]、[33]、[36]、[40]、[43]、[45]-[47]、[51]-[56]，表意性手势与其他手势类型一起发挥了关键作用。最后，17项（77%）研究包括标志性、隐喻性和节拍性手势[18]、[19]、[33]、[36]、[40]-[42]、[44]、[45]、[48]-[53]、[55]和[56]。一半的研究让ECA做 “随机手势”，这些手势被纳入评估范围（即手势和语音之间没有对齐的手势）。其他研究（n = 4）让ECA向用户展示各种不同的非语言行为方案，如基于文本、语音或两者结合的手势[20], [40], [49], [50]。

3.3 参与者

每项研究的参与者数量从13到250人不等（平均=50，SD=50，中位数=35）。在这些论文中，19篇（86%）是在实验室进行的，3篇（14%）是通过Amazon Mechanical Turk（AMT）在线进行的（n = 2），1篇是在展览期间进行的（即 “在野外”）。对于12项（54%）报告了参与者的平均年龄的研究，所有研究报告的平均年龄为30.10岁（SD=6.6）。其余11项（46%）没有提供性别和年龄的人口统计资料。关于试验地点，16项（73%）研究是在英语国家以外进行的，前3个国家是德国（n = 5）、日本（n = 3）和法国（n = 3）。对于参与者的招募，6项（27%）研究报告使用了大学生–所谓的便利样本–来评估手势的产生。TABLE I提供了不同研究、来源国和特点的更详细的概述。

TABLE I

3.4 研究实验和评估

在研究设计方面，16项（68%）研究采用了非主体设计，7项（32%）采用了主体间设计。大多数（n = 18，82%）研究邀请参与者到大学研究实验室与ECA进行互动。其他方法使用AMT（n = 2，9%）。在9项（41%）研究中，"自然度 "是生成手势中最常见的评价指标。其次是同步性（n = 6，27%）、相似性（n = 4，18%）和人类相似性（n = 2，9%）。2项研究（9%）[42], [47]要求参与者选择与给定生成的手势序列最匹配的音轨。9项（41%）研究利用了学习生成共同语言手势的模型。在评估生成的手势时，16项（73%）研究使用问卷调查作为评估ECA手势表现的工具。只有1项研究[47]将其手势模型的上一次迭代用于评估。4项研究(18%)将地面真实作为手势生成评估的一部分。3项研究（13%）依靠成对比较，例如将两个或多个视频并排放置，由用户选择与语音音频最匹配的视频，例如[44]、[50]、[52]。其他评价方法涉及机器人的性能，例如，[18]、[19]。

3.5 客观和主观评估

Table II对涉及客观评价的研究进行了总结。它还包括所使用的代理类型，以及数据集中的发言人数量（如果适用）和对话中发言人的设置。只有5项研究（23%）将某种形式的客观评价指标作为其评价的关键方法。其他指标包括生成的手势和地面真实手势之间的平均平方误差（MSE）的变化（n = 1，4.5%），以及对关节速度和位置的定性分析（n = 2，9%）。总共有10项（45%）研究使用了数据驱动的生成方法，但只有3项研究（14%）报告了其用于调整模型的客观指标的结果。只有3项（14%）研究报告了他们与模型性能有关的客观指标的结果。7项研究（32%）依靠的是以单一发言人为特征的数据。除此之外，7项研究（32%）依赖于显示2个或更多发言者的数据。其余的研究没有报告数据的设置或其数据集中发言者的数量。

Table II

Erica is an advanced android designed as a research platform to study human-robot interaction. It understands natural language, has a synthesized human-like voice, and can display a variety of facial expressions.; https://robots.ieee.org/robots/erica/
Wakamaru, the yellow, 3-foot domestic robot debuted in 2005; https://robots.ieee.org/robots/wakamaru/
Fritz, A Robotic Puppet; https://www.robotshop.com/community/robots/show/fritz-a-robotic-puppet

Table III 提供了研究设计、条件和主观评价方法的详细概述。与组内设计（n = 16，73%）相比，使用组间设计的研究较少（n = 6，27%）。大多数使用问卷调查（n = 16，73%），其次是配对比较（n = 3，14%）和其他方法（n = 4，18%），如偏好匹配（音频与视频匹配）和回忆智能体讲述的故事中的事实。

Table III

3.6 附加结果 - 节拍手势

只关注节拍手势生成的研究工作被排除在主要分析之外。用于评估ECA中节拍手势生成系统性能的方法与语义手势工作中使用的方法相似。10篇论文满足标准的被选出来 [28], [30], [57]-[64]. 共有7项（70%）研究提到了参与者的数量，总共有236名参与者。只有4项（40%）提到了关于年龄和性别的统计数据。在这10项研究中，4项（40%）在实验室进行，5项（50%）在网上或通过AMT进行。1项研究是在一个展览中评估的。由于Beat手势的生成大多依赖于前景信息，8项（80%）研究采用了数据驱动的方法。在8项依靠数据驱动方法的研究中，只有4项报告了他们用于客观评价的指标，其中有平均位置误差（APE）或MSE。7篇（70%）论文在虚拟头像或没有明显面孔的stick ﬁgure上进行评估。这些研究中进行的主观评价与包含更多手势类别的研究相似。6项研究（60%）使用实验后调查问卷来评估ECA生成的手势的质量。30%依靠成对比较，1项（10%）依靠集中注意力在一个ECA上的时间[59]。所有的研究（n = 10）都依赖于主体内评价。使用最多的问卷项目：“自然度”（n = 4，40%）和 “时间一致性”（n = 4，40%）。

4 主要结论和影响

在本节中，我们将更详细地研究上述观察，并讨论对手势生成方法的影响。由于在主要分析中提出的实验具有高度的差异性和多样性，将不提供对实验结果的元分析。

4.1 参与者样本

在主要分析中，超过一半的研究没有报告关于评分者的细节，如平均年龄、性别或文化背景。这对了解调查结果对更大样本的普适性，或其对特定文化和地理环境的适宜性是一个挑战。许多研究（30%）使用的参与者都是现成的，例如来自高等教育校园的参与者。然而，这种方便的学生样本并不能代表一般人群，可能会导致以社会经济背景较高的年轻成年人为主体的样本，这可能会使结果产生偏差[65]。随后，对模型产生的手势的评价代表了一种更狭隘的文化和社会观点，一些在其他文化中可以接受和自然的手势可能在评价过程中因为使用了更有限的样本而被错误地描述或评价得不好。

4.2 招募和试验地点

通过AMT或Proliﬁc等服务使用在线工作者，确实有其优点。大量的数据可以在很短的时间内以适度的预算收集到，而且可以接触到来自全球不同地区、具有非常多样化背景的参与者。此外，研究表明，众包数据的质量可以与基于实验室的研究相媲美[66]。鉴于AMT上的大多数用户都是美国人，研究报告参与者的文化背景和居住国非常重要[67]。尽管最近的一项研究表明，在实验室和AMT上评估ECA的手势生成的研究之间可能没有区别，但重要的是包括注意力检查和反应质量控制机制，并报告这些情况[68]。

4.3 实验设置和评估

在主要分析中，14项（65%）研究依赖于非主体设计，这有助于评估多次曝光的手势迭代，在参与者的分数中引入较少的变化，并且需要较少的参与者来达到足够的统计能力。然而，有点问题的是，并非所有的研究都依赖于groud truth的比较。groud truth条件通常是由人录制的手势，并配有相应的语音音频，然后与计算机生成的手势进行比较。人类的真实情况可以作为一个具体的基线，这应该在适当性和自然性的量表上得到最高分，为其他评价分数提供一个明确的比较。有几项研究还涉及到随机运动生成作为控制条件。随机运动有不同的解释方式，有些从他们的数据集中抽取随机样本，然后放在原始语音的基础上[33]，或者插入随机参数来生成手势[19]。随机手势是这类工作的一个重要控制条件，确保人们不会简单地将意义归于实验中看到的每一个手势，无论它是否是相关的共语手势。总的来说，我们注意到，用于手势生成和评估的实验装置的质量是中等的。

In a within-subjects design, all participants receive every treatment. In a between-subjects design, participants only receive one treatment.

4.4 评估方法

所查阅的文献并没有显示出对手势的评价指标的一致使用，不同的研究小组专注于他们感兴趣的特征，特别是。在大多数情况下，评估方法，如问卷调查，被用来评估ECA中共语手势的质量[33], [40], [49], [53]。不同的问卷确实围绕着类似的结果提取信息，但是没有问卷的黄金标准，也没有就单一的问卷来评估生成的手势的感知达成一致。许多项目都是在一个单一的维度上进行的，这就导致了评估时忽略了细节。问卷经常涉及到李克特量表的使用，而李克特量表的使用有时是不正确的[69]，例如没有报告内部一致性（internal consistency），除了[18]，[19]。客观评价也非常不同，从使用MSE到报告关节速度和位置的直方图。

5 关于手势评估的建议

在上一节中，我们讨论了我们对用于协同语音手势生成的评价的文献回顾的主要结论。根据我们的发现和经验，我们为从事这一领域的研究人员提供建议。首先，我们给出了更多的一般性建议，并结合其他相关领域的例子。其次，我们提出了一种额外的评估方法，为此我们提供了一些句子和场景。最后，我们介绍了一个检查表，研究人员可以将其纳入未来的工作中，以提高对数据集、方法和结果的报告水平。

5.1 参与者样本

如上一节所述，许多研究没有报告参与者样本的细节。此外，并非所有的参与者样本都能反映出模型或系统所训练的数据。我们建议对来自不同人群和背景的参与者进行主观评价，以反映模型或系统训练所依据的数据。

一些工作更侧重于为虚拟代理配备手势，而另一些工作则更进一步，用他们的方法来驱动社交机器人的非语言行为。通常情况下，中间评估被忽略了，当这些引擎被用于互动场景时，这有可能导致不想要的结果。我们建议在将模型投入生产或在新的数据集上使用该模型之前，在可行的情况下进行参与者评估，以确保在部署到人类社会互动时有更好的有效性和相关性。

5.2 实验设置

在本节中，我们涵盖了与条件、研究设计和测量有关的建议。

每个主观评价的基石是将一个系统的输出与ground truth进行比较。这个ground truth条件必须同时包含运动和音频。另一个可以阐明系统性能的条件是随机或不匹配的条件，即把真实的运动放在不同的音轨上。一个有趣的例子是GENEA 2020挑战赛的主观评价，它是国际智能虚拟代理会议（IVA）的一部分，据我们所知，它是该领域的第一个此类挑战[70]。在这项挑战中，多个数据驱动的联合语音生成器与两个基线系统进行了比较。众包的主观评价是这项挑战的一部分，其 "适当性 "和 "人类相似性 "的结果显示在Figure 3中。在这里，我们看到ground truth在这两个维度上都比提交的系统得分高，可以作为一个适当的基线。至于人的相似性，不匹配的条件提供了一个有趣的结果：它仍然像ground truth一样看起来像人，但它在适当性方面的得分却低得多。在与系统的输出进行比较时，ground truth条件和不匹配条件都可以作为一种理智的检查。

Figure 3

本综述分析的大多数研究都要求参与者对单个stimuli进行评分。这可以通过对比性方法（也称为A/B测试或并排测试）得到更严格的证实[71]。在这种方法下，两个或更多的stimuli在同一时刻出现，用户被要求对这两个stimuli进行评分或选择首选stimuli。在作者最近的一项研究中，对这两种类型的对比方法进行了测试，因为我们想弄清楚这两种对比方法中的一种是否应该被选中[72]。在一个条件下，参与者被要求在两个视频之间做出选择（成对比较）或对两个视频进行评价。作者发现，当评价许多条件时，使用评分表的方法比使用成对比较的方法更受欢迎。然而，成对比较要快得多，对参与者的认知要求也低[73]。

许多研究以单向的方式评估其方法的性能：将视频放在网上，要求参与者评估个别视频。然而，在ECA中需要适当的手势，这往往与人类之间的交流方式有关。我们建议（在可行的情况下）在互动场景中评估这些系统，因为研究人员的目标往往是最终在互动场景中使用ECA。这可能需要额外的工程，如创建也能处理合成语音的系统（从而处理全新的输入），以及创建可用于互动场景的对话。然而，通过使用互动场景来评估ECA的性能，就有可能为间接测量而记录和注释互动，这一点我们将在下一段中讨论。

评价stimuli的一个常见方法是要求在某些维度上以5分或7分的尺度进行评分。Table III 向我们展示了用于主观评价的问卷项目的丰富性。这些项目也可以被看作是 "直接 "项目，因为它们是用来直接测量某个维度的。经常使用的项目有 “自然性”、“人类相似性”、"适当性 "或 “喜欢性”。我们在此建议，当人们只想依靠直接测量时，主观评价应涵盖特定的维度：自然性、人的相似性、流畅性、适当性或可理解性。理想情况下，这些维度的评分是5分或7分（因为这些评分往往比较大的量表提供更可靠的结果[74]）。除了直接测量之外，我们还想提出使用更间接的测量方式的理由。间接测量的例子有：完成一项任务所需的时间（任务完成度）、回忆率（让ECA讲故事时对事实的回忆）、眼神接触和凝视，或反应时间（在回答问题的环节）。例如，任务完成度是一个经常被用来估计人机交互有效性的代理[75]，在我们的领域中也可能发挥类似的作用。回忆率已经被用于评估手势[18], [19], 但在未来的互动评估中可能会发挥更重要的作用。眼神接触、凝视或反应持续时间是估计用户参与度的良好代理，考虑参与度在其他领域也很有效[76], [77]。参与度的高低反过来可以很好地预测一个ECA的手势有多有效。然而，使用间接测量方法的缺点是，其中一些方法需要在多个评分者的监督下对实验环节的视频记录进行注释。

5.3 模型输出的定性分析

数据驱动的模型通常在语音和文本的组合上进行训练。有些系统依赖于一个说话者（如提交给GENEA 2020挑战赛的系统），而其他系统则依赖于多个说话者。当数据驱动的系统能够产生独立于特定输入语音的手势时，就有可能使用合成文本到语音作为输入。这反过来又使我们有可能提出新的数据，并对这些新数据的模型性能进行定性分析。我们提出了一个新的任务，将全新的句子（必要时还有文本到语音的输出）作为手势生成模型的输入。然后需要对输出进行分析，以确定手势类别的出现。例如，对于 "我在扔球 "这句话，一个模型可能会为 "球 "这个词生成一个标志性的手势。我们已经众包了一套可用于这项任务的句子和场景1。我们建议研究人员将其中的一个子集作为输入，并在模型的输出中对手势类别的出现进行注释。这种方法可以深入了解这些模型的输出的丰富性和多样性。然而，这项任务只适用于能够只使用输入文本或输入文本和合成语音音频组合的系统。

5.4 手势生成研究人员的首选报告项目

为了补充前几节提出的建议，我们提供了一个非详尽的清单，包括首选的报告项目。这些项目借鉴了我们对报告的观察和我们的研究经验（[62], [70], [72]）。考虑到拟议清单中的项目，研究人员可以进一步提高其报告的质量。Table IV总结了我们建议的清单，其中包括值得纳入未来工作的项目。它包含了我们认为在研究物理和非物理代理的手势生成时在科学出版物中报告的重要项目。我们希望这个清单的使用将使未来更容易进行更系统的评估和基准测试。

TABLE IV

6 结论

我们回顾了22项关于ECA共同语音手势的生成和评估的研究，特别是对评估方法的关注。有三个问题指导我们的审查，第一个问题是用什么方法来评价共语手势的产生。我们发现有很多不同的方法，包括客观的和主观的，都被应用于评价生成的共语手势。我们的主要分析发现，许多研究没有提到关于参与者特征的基本统计数据，很少有研究报告详细的评估方法，也没有系统地报告用于手势生成和评估步骤的方法。我们的第二个问题是，哪种方法对评估共话手势最有效。从我们的回顾中，我们不能得出结论说一种评估方式比另一种更受欢迎，并建议同时使用客观和主观的方法。我们的第三个也是最后一个问题是，应该采用什么方法和指标来创建一个标准化的评估或报告协议。我们的发现表明，手势生成和评估领域将受益于更多的实验严谨性和进行系统评估的共享方法，例如，见[78]，[79]。我们提供了调查问卷的维度、设计和报告研究的首选项目清单以及新的评估任务，并呼吁社会各界为评估产生共语手势的系统而努力制定标准化的协议和调查问卷。我们希望这项工作能促进该领域的进一步发展，并希望它能促进ECA中共语手势生成方面的进一步进步。