会话代理翻译_kendon 2004: 91-92-CSDN博客

26
体现对话代理
黄鸿轩
介绍
机器可以不休息地工作, 同时保持人类永远无法达到的精度和质量水平。几十年来, 人工智能研究人员一直在追求制造能够在接近其他人类水平上与人类对话的机器。苹果于1987年制作的虚构视频《知识导航》就是这个想法的一个很好的例子。“体现会话代理” (Eca) 一词最初是由 Justine Casell 在《 e 》中提出的, 并将其定义为 " 计算机接口 , 可以坚持他们的谈话结束, 界面, 实现会话行为作为对话的要求的功能, 也是作为情感, 个性和社会对话的一个功能。Eca 通常是在3D 计算机图形 (CG) 动画 (以下简称 Eca) 中作为逼真的字符实现的, 是本章的主题.
一个 ECA, 有时被称为虚拟代理或虚拟的胡人 , 基本上是一个人的模拟。因此, 研究问题包括如何使计算机驱动的图形字符看起来像一个真正的人 (逼真的外观和动作, 即 cg 动画), 并表现得像一个人 (在右侧做出人类的决定)次).
在面对面的对话中, 我们人类不仅使用语言, 而且还充分利用我们的身体与对话者进行沟通。我们根据谈话的背景和情绪状态调整我们的语气 ; 我们进行手势 (kendon, 2004年), 改变身体姿势以补充语言, 并监测对话者在以下方面表达的声音:在同一时间。为了在机器上实现这些会话功能, 传感器需要感知人类通信伙伴的语言和非语言状态, 执行器必须以一种可以实现的方式实现代理的意图。感知的人类。困难不仅来自于代理可以做什么, 还来自于他们的动作质量和外观的微妙影响, 这可能会引起用户的不同解释.不可思议的山谷是森森在20世纪70年代提出的一个假设 (森, 1970年)。它假设人类的肖像之间的关系在外观

威利《人机交互手册》,第2卷, 第一版。
由 Kent L. Norman 和 Jurek Kirakowski编辑.
©2018 John Wiley & Sons ltd. 2018年由 John Wiley & Sons 有限公司出版。

一个神器和亲密从人类到它可以被看作是一个山谷形状的曲线。也就是说, 当文物看起来更像人的时候, 与它的亲密就会变得更高。然而, 它在某个时候会大幅下降, 因为它看起来很像人类, 但并不表现得那么像人。当工件的行为得到改善时, 亲密性再次增加。那么, 曲线是一个山谷的形状,两边的东西都比较高, 中间的则较低。这一假设是一个流行的研究课题, 在过去的几十年里, 包括石黑博史的研究小组在内的许多研究团体都对这一假设进行了研究, 这对于建造逼真的人形机器人来说是非常了不起的 (zlot owski 等 )2015年).
为什么不是 Eca 而是通信机器人？
将 Eca 与机械对等机器人–人形通信机器人–进行比较, 它们具有潜在的优势, 因为它们在面部和身体上有更大的自由度, 在驱动中的噪声更小, 在虚拟环境中的限制也更小。就业。图 26.1 显示了我们团队开发的交际舞虚拟教练 (黄、 uejo、Seki、Lee、& kawagoe, 2012年)。在这个系统中, 交际舞学生可以练习他/她的舞蹈, 并从虚拟教练那里得到指示。不仅是学生跳舞, 虚拟教练也会表演舞蹈动画。这些动画序列基于通过运动捕捉设备获得的专业舞蹈教练的数据。舞蹈步骤包括复杂、快速和微妙的身体动作, 这是很难实现的机器人.

图26.1 虚拟教练交际舞系统.
ECA 的研究项目有着相同的目标: 用通信机器人实现工件的人性化行为。它们在感知处理方面也有同样的困难, 在决策模块中也有类似的逻辑。研究人员还对双方的研究兴趣进行了研究。因此, 与机器人相关的研究论文会在以代理为重点的会议上发表, 如智能虚拟代理 (iva)、自主代理和多代理系统 (aamas) 以及人-代理交互 (hai) 。
表 26.1汇总了 eca 和通信机器人的优缺点。它们固有的弱点是缺乏执行器: 它们无法实际访问真实世界的对象。尽管如此, Eca 还是使研究人员从与机器人相关的机械和材料问题中解脱出来, 具有相对较小的渲染和逼真的计算机图形字符动画的障碍。这使他们能够专注于实现高水平和先进的对话能力, 如语音同步唇部运动, 以及丰富的面部表情, 同步和诡辩涉及面部各部分的运动。因此, 在心理研究、语言培训、娱乐目的或公共服务 (高) 中的模拟等应用中, 具有丰富的会话代理被认为是理想的接口。-需要高水平的沟通能力.
表 26.1 eca 和机器人的比较 .
Eca 机器人
优势成本低廉
可在手持移动设备上实现
广泛的商业产品
可在完全沉浸式虚拟现实环境中使用 hmd实现强烈的存在感, 以提高用户在交互中的参与度
可配备执行器, 并可物理访问真实世界的物体
根据机器人设计自行推进
缺点蒙娜丽莎效果
获得用户参与的安全感薄弱
没有执行器, 因此无法物理访问真实世界的物体
在大多数情况下的固定设置成本非常高, 仅用于研究项目和工业用途
Diffi崇拜实现现实的, 人性化的面部表情和身体的运动, 由于身体的限制
合适的应用领域教学或培训申请
面向广大公众消费者的商业产品
心理实验
游戏在多用户设置中, 对单个用户的响应至关重要的应用程序
需要物理访问真实世界物体或自行移动的应用
在发展 Eca 的发展中, 对资源的需求减少是另一个优势。尽管从研究人员的角度来看, 自主程度或表现力可能较低, 但具有字符的用户界面已被广泛应用于商业应用和网站中。另一个应该注意的一点是, Eca 是一种叫做蒙娜丽莎效应的现象。许多 eca 设置使用屏幕投影仪组合或大尺寸显示器, 可将字符呈现为两个维度。在这种设置中, 多个用户与系统交互的情况下, 所有人都会从宪章中看到基本相同的目光和面部方向。也就是说, 当角色向前看的时候, 那么所有的用户都觉得角色在看他们; 当角色向右看的时候, 每个用户都会觉得角色在向左看某人 ", 依此类推。当代理的行为仅针对用户组中的一个人时, 这种现象可能会使用户感到困惑。为了解决这个问题, 我们的小组提出了一个设置, 以补偿2d 代理与物理指向设备在测验游戏应用程序中,测验主代理与多个用户交互 (黄等人,2010年).
总之, 对于 Eca 和通信机器人进行比较时, 它们都没有绝对的优势。在某些情况下, ECA 设置更合适 (例如, 现实人类行为的表现力是必不可少的), 而在另一些情况下, 机器人更合适 (例如, 多方互动或访问物理物体的是必要的)。还有一些工作结合了这两个设置的优点。例如, 机器人酒保 JAMES (gaschler、kessler、Petrick、 &knoll, 2015年) 的原型机在安装在机器人身上的平板电脑上呈现了一个图形面。总之, 用户界面开发人员需要彻底考虑他们可以从设置中获得什么, 以实现最佳的系统性能.
体现对话代理发展简史
随着计算机硬件、计算机图形学、自然语言处理、语音识别和合成技术的发展在过去的二十年里, Eca 的技术引起了研究人员的极大兴趣 (Nishida, 2007年;普伦丁格& Ishizuka, 2004年)。各种各样的实体化的谈话代理系统已经被开发出来。的数量研究机构。对于前充足, Rea (房地产经纪人) (卡塞尔和 Al., 1999年;卡塞尔比克莫尔坎贝尔威廉& yan, 2000) 是一个体现对话代理谁调解房屋信息与一个单一的用户。Rea 使用简单的启发式方法对用户的口头和非语言行为进行会话转弯管理;当用户开始说话时, 她会向用户产生转机, 当用户开始做手势时, 她会在中间终止自己的话语。她还生成同步的多模式话语。
媒体实验室自主对话亭 (MACK) (Cassell 等人, 2002年;Nakano, reinstein, stocky, & cassell, 2003) 是一个体现对话代理, 他可以回答有关麻省理工学院媒体实验室的研究小组、项目和人员的问题并为其指明方向。MACK 使用语音、ge粗壮和放置在自己和单个用户之间的桌子上的地图上的指示的组合。由 MACK 跟踪用户的头部运动和凝视方向, 以便他能够估计用户是否理解了他刚才说的话 (接地), 并决定 w-®继续或更详细地解释他的行为.
gégéa (pelachaud、 carofiglio、de roosis、& poggi, 2002年) 是一名医生, 向她的病人提供有关药物处方的信息。她被实施为一个3D 谈话头, 她自己的个性和社会角色, 并有能力表达情绪符合她自己的目标的对话背景.
Max (多模态组件Expert) 是 Bielefeld 大学开发的一种虚拟人类, 被采用为具有不同 ab能力的各种角色。作为人类用户的助手, 它可以协作构建虚拟对象 (Kopp、Jung、 lebmann、 & wachsmuth, 2003) 与多模式互动, 是一个带有情感模拟的纸牌游戏的大师 (becker,prendinger, ishizuka, & wachsmuth, 2005年;布克里查, 贝克尔, &瓦奇穆特, 2007), 和科学博物馆指南 (kopp, allwood, grammer, ahlsen, & stockmeier, 2008年;kopp、 gesellensetter、kramer、& wachsmuth, 2005年), 向访问者的键盘输入提供实时反馈.
正如上文的介绍所指出的, 体现对话代理先前的工作重点是开发 eca 的基本功能, 例如如何生成面部表情和身体运动的逼真动画, 以及如何处理与用户, 等等。近年来, 随着cg 动画技术的发展和低价格传感器智能移动设备的出现, 体现对话代理的研究已经进入下一阶段。越来越多的项目在更深层次的沟通中探索人与人之间的互动。s伊姆塞伊(debault等人, 2014年) 是一个虚拟治疗师平台, 为临床和健康领域的使用而开发–护理领域。该系统可以根据面部表情、体位、声学特征和语言特征, 实时自动分析抑郁、焦虑、创伤后应激障碍 (PTSD) 等心理压力.视频/音频输入。TARDIS (培训年轻成年人的情绪调节和社会互动技能的发展) 是欧盟的一个项目,旨在为求职面试提供社会技能培训环境 (jones 等人, 2014年).
体现对话代理发展的标准化
由于对虚拟人类动画的研究兴趣不断增加, 以及对 Eca 标准化的需求, 已经有许多活动试图规范 cg 字符或自主 eca 的生产。在本节中, 我们将它们分为两类。首先, 尝试提出角色动画的标准描述语言的活动。其次, 正在开发的框架旨在解决自主 eca 所表达的行为的标准化问题.
字符动画描述语言
一些高级会话代理或虚拟人类描述标记语言已经提出或正在开发, 如 aml (avatar 标记语言) (kshirsagar 等人, 2002年)、vhml (虚拟 hum)标记语言)(gustavsson等人, 2001年), cml (arafa & mamdani, 2003年), apml (情感陈述标记语言) (carolis, pelachaud, poggi, i.,& Steedman, 2004年) 和 MERML (多式联运话语权陈述标记 Language) (kranstedt, kopp, & wachsmuth, 2002年)。头像标记语言是一种高级脚本语言, 用于指定头像动画; aml 处理器读取包含头像面部表情、正文的高级描述的 aml 脚本和头像的话语, 或对 mpeg-4fbap (面部身体动画参数)(pandzic& forchheimer, 2002) 文件的引用, 然后生成相应的适用于基于 web的应用程序的 mpeg-4位流。但是, 代理体系结构是确定性的, 因此没有灵活性; 脚本语言也不考虑来自人类用户的输入部分。虚拟人标记语言是一种高级标记语言, 它描述了一个一般目的的虚拟人; 它是用一套包括情感描述、面部表情、手势和等等。但是, VHML 的规范是不同的, 因此没有什么灵活性, 可以像 AML 一样包含补充 FAP/BAP 文件。它的许多部分仍然没有定义, 特别是手势或身体动画部分。字符标记语言是另一种正在开发的高级虚拟字符描述标记语言, 类似于 aml。它在情感和个性的规范上不同于 AML ,而它预定义的基本动作集不能动态扩展。情感表现标记语言是一种语言, 它指定说话的头代理的语言话语、面部表情和对话动作的关联 (trum等人, 1999年) .多模式表达式标记语言将手势与插入口头话语的开始/结束计时标记相关联。每个手势都用一组参数来描述手腕的位置、手的形状和手腕的方向.
多模式演示标记语言 (MMML) (普伦丁格, Descamp, & Ishizuka, 2002年), MPMLVR (冈崎, Aya,萨伊约尔& Ishizuka, 2002) 和 TVML (电视节目《制造语言》) (Hayashi, Ueda,栗原, &亚村, 1999) 是非常高的‐为启用演示或电视而设计的级别脚本语言‐程序‐喜欢的内容是容易作出的。有了它的用户友好接口, 可以创建此内容, 通过编写一个简单的脚本来描述一组有限的、预定义的虚拟单词、对象、字符和字符行为。
关于这些语言的工作一直很紧张, 但没有一项被广泛接受为事实上的标准。这可能是由于以下原因。
很难找到一个平衡和彻底的覆盖一个高层次的描述语言。几乎无限数量的可能行为可以由人类和人类相似的角色进行。被认为是自然的角色动画因应用、字符而异.因此, 在大多数情况下, 只能将这些语言指定为非常高的级别, 在这种情况下, 可以计算出具体的规格。这限制了采用这种语言而不是最适合研究人员自身目的的自制描述语言的好处。同样的原因也导致了这样一个事实, 即这些语言大多彼此相似 , 但没有一种语言占主导地位。缺少捆绑兼容的角色动画工具包。除了 mvml 方言和 TVML 之外, 上面提到的大多数工作都没有提供功能齐全的角色动画工具包。如果描述语言既不具体指定动画, 也不提供动画工具包, 则对eca 开发人员几乎没有用处。另一方面,尽管 mmml 和 tvml 提供了易于使用和功能齐全的工具包, 但它们无法轻松扩展, 因此其应用受到限制.
与上述语言不同的是, mpeg-4fbap 是一种规范, 它试图通过狭窄的网络通道实现对话伙伴和头像动画之间的视频通信。本标准中指定了详细的角色动画参数 , cg 角色的动画就像一个虚拟机器人, 即旋转角度意义上的关节。采用了基于 vrml97 (虚拟现实建模语言) (web3d 联盟, 1997年) 的人形模型表示标准h-anim (http://www.hanim.org)。为面部动画指定了 66个低级和两个高级 (表情和 visimes) 参数, 并为身体动画指定了296个参数。通过这种方式, ECA 开发人员必须计算逆运动学来动画字符。某些软件包可用于 mpeg-4fbap, 例如-visageSDK (http://www.visagetechnologies.com).
学习框架
为了支持体现对话代理的生产过程并鼓励分享和协作, 体现对话代理的一组研究人员启动了 SAIBA 框架 (情况、代理、意图、行为、动画) (投入物, 组织, 2006年)。该框架指定多模式生成, 并由三个不同级别的处理阶段组成.
1沟通意图的计划。
2规划实现这一意图的多式联运。3计划的行为的认识.
该工作组旨在提供两种常用的语言来描述 Eca。一个充当阶段1和第2之间的接口。它们称之为函数标记语言 (FML)。另一个是阶段2和3之间的接口, 他们称之为行为标记语言 (bml).
函数标记语言
函数标记语言是一种描述 Eca 的交际和表达意图而不考虑身体行为的语言。它旨在为言语和非言语行为规划中相关和有影响力的方面提供一个语义描述。FML 的规范仍处于起步阶段。第一次 FML 讲习班是与 AAMAS 2008年会议同时举行的, 他的分会作者也出席了这次会议。在这次研讨会上, 研究人员讨论了 FML 应该涵盖的范围。它讨论了 FML 的实际含义、意图一词的含义以及文化、情感、个性或语境是否也应包括在内等问题。讨论是从非常抽象的角度开始的, 在这次讲习班上没有达成具体协议, 但研究人员同意组成较小的小组, 根据四种具体设想方案拟订建议。这些情况包括:
•在代理与用户协作构建物理对象的情况下, 与人的 Dyadic 对话。预计将进行涉及下一步如何实现这一目标等议题的谈判。
•在科学博物馆向参观者展示科学展览的代理人。它被认为是一个 “长” 独白, 并被认为是代理无法感知观众的反馈.
•在社会交往中的多方对话, 预计将发生在一个休息的咆哮。对话的参与者被认为是动态的, 即参与者可以在对话继续进行时加入和离开对话.
•健康领域中的长期配套代理。该方案将描述在这种长期关系中, 在紧密分离的时间点上的两到三个相互作用。
然而, 在讲习班之后, 在发展 FML 方面没有取得进一步的具体进展。这可能是由于 FML 必须涵盖的概念范围太广。各领域的研究人员对 fml 的需求和要求千差万别。缺乏一个强大和集中的组织也增加了取得具体成果的难度.
行为标记语言
行为标记语言是一种描述多模态行为的语言, 因为它们是在生成过程的最后阶段实现的。它提供了可用于控制 eca 的多模式行为的一般独立于玩家的描述。与 FML 不同的是,bml 的各个方面是为了解决这些问题而设计的, 要具体得多。工作组首先在 Kopp、Bergmann 和wachsmuch (2006年) 提出了这一想法, 并在vilhjálmsson等人 (2007年) 讨论了这些想法的进展和一些具体技术问题。一份特别草案(mindmakers. org, 2008年) 已经出版.
它可以与上面提到的其他语言区分开来, 因为它主要提出描述字符多个模式同步的语法。在 BML 中, 一个叫做 “同步 poi” 的概念不是 "是提出的。角色的每个单独的非语言动作都有一个 ID 和六个阶段, 分为五个点: 开始、准备、中风‐开始, 中风‐结束、放松和结束。语音文本是用同步标记插入的。同步然后通过对这些同步点的对齐来描述多模态动画的实现, 并通过引用动作 Id 来描述这些同步点。在 BML 中, 工作组将角色动画定义为以下核心类别: 姿势、运动、讲话、手势、面部、头, 凝视。每个类别都有自己的一组 xml 元素和属性, 并具有最少的动画集, 这些动画必须由任何 BML 实现‐兼容的播放器, 开发人员调用 BML 的级别0。关于 BML 的工作仍在进行中。他的规格正在改变。许多部分仍然缺失或不清楚–例如, 有目标的运动, 如行走和面部表情。目前, 面部表情似乎是用基于 FACS (面部面部) 的详细参数指定的行动编码系统) (Ekman & Friesen, 1978年)。这是 BML 中非语言动画规范的一种语无伦次的方法, 它只是用抽象的术语 (如点头和摇头) 来指定的。虽然 BML 规范尚未合并在该学院, 有几个研究所已经开始了与之相关的工作。南加州大学的虚拟人类团队开发了一个 BML‐对逆‐运动学引擎称为智能机身(蒂博马歇尔马赛, &卡尔曼, 2008)。团队中雷克雅未克大学开发了一个 BML 实现器, 结合智能机身和免费3D 图形引擎 Panda3D (http://www.panda3d.org/) 开发在卡内基梅隆大学。
发展eca的共同框架
要实现一个可信的 eca 能够与人进行自然面对面和多式联运对话并不容易。除了语言通道的韵律特性外, 还可以在进行交流中精确控制非语言通道, 如凝视、扬眉吐气、点头、手势或姿势。功能可以引导对话的流动, 或者作为口头话语的补充, 反映代理人的内在情绪状态、个性和社会地位, 以响应人类用户的公认注意力。最后, 输出可以用逼真的字符和流畅的语音合成来呈现。要通过软件代理来实现这些能力, 自然需要掌握信号处理、自然语言、手势识别、人工智能、对话管理、个性和情感建模等方面的知识和技术语言生成、手势生成、CG 角色动画等都是必需的。体现的会话代理涉及如此多的研究学科, 以至于单个研究团队很难从零开始开发这些学科。无论将要建立体现对话代理的外地开发商在哪里, 他们都需要在体现对话代理中纳入一套最低限度的这些功能。因此, 构建 eca 系统的通常方法是使用其他研究小组开发的软件工具。然而, 由于不同机构开发的软件工具既不是相互合作的, 也不是为同一应用程序领域设计的,因此通常很难甚至不可能使它们一起工作。不仅如此, 由于研究人员的共同需求, 他们重复了类似的方法, 导致工作多余.
为了解决这些问题, 需要一个共同的框架, 吸收异质性, 将各种体现对话代理软件工具连接起来, 并将连接的组件作为一个完整的 ECA 系统来驱动。这样就可以避免冗余工作 , 并节省资源。此外, 可以促进分享研究成果,更容易开发体现对话代理系统.
与常规自治代理的典型建模一样, ECA 需要具备以下能力:
•它应该感知来自用户和用户所在环境的口头和非口头输入;
•它应该解释输入的意义, 并故意适当的口头和非语言行为作为反应;
•它应该在虚拟环境中使用动画计算机图形字符执行这些操作。
为了实现这些功能, 需要获取传感器数据、语音识别、手势识别、理解自然语言、BDI 规划、语音合成、CG 角色动画等多种功能。在这里, 我们可以讨论处理整个 eca 系统的每个单独功能组件的模块。在2002年的一个讲习班 (gratch、 re跨国、andre、cassell、 petajan、&badler, 2002年) 中, 大约30名体现对话代理国际研究人员就如何实现 mod 进行了深入的讨论.架构和接口标准, 使这一领域的研究人员能够重用彼此的工作。然而, 除了关于 SAIBA 框架的工作外, 这一目标尚未实现.
为了实现体现对话代理一般用途的共同组成部分框架, 应满足各种要求.
•集成平台:一个能够无缝集成各种eca 组件并推动它们作为整体 eca 共同行为的平台是不可或缺的.
•分布式和 Os/编程语言独立性:组件可以用各种编程语言开发, 并在各种操作系统上运行。因此, 集成框架必须涵盖主要的操作系统和编程语言, 并允许连接的压缩器在多台计算机上运行.
•模块化和可重用性:这应该是任何集成方法的核心。通过明确划分组件的功能, 明确划分 m. m. 的功能, 降低相互依存度, 可以最大限度地提高组件的可重用性模块化.
•对各种自然语言的支持:随着交通的进步, 世界变得越来越小, 跨文化问题比以往任何时候都重要得多。然而, 由于西方国家主导了计算机科学领域的发展, 与亚洲语言或其他语言有关的问题往往被忽视。需要保持处理各种语言的灵活性.
•组件之间的双向通信: ECA 组件不仅从其他组件 “提取” 数据, 而且还必须将其中一些组件 (如传感器数据处理组件) “推送” 其他组件。因此, 需要一种支持双向传递的机制.
•实时性能和定时控制:代理对用户输入的实时响应是 eca 系统的基本要求之一。系统每个部分的延迟需要保持在最低限度, 同时需要保证对操作的实时执行。因此, 严格的时间模型是必要的.
•简化采用遗留系统的努力:应提供库和工具, 以简化开发包装器以采用与架构连接的遗留系统的工作.
•支持特定于 eca 的功能:与通用分布式体系结构相比, 对于专门用于 eca 开发的体系结构, 需要以下支持.
•多模态输入的融合:在多模态 l交互式 eca 系统中, 来自语音通道和其他可能的感官通道的用户输入之间的关系需要正确地进行和触发代理的适当响应.
•预录制曲目和运行我在输出中生成的行为之间的同步:需要与声音、音乐或运动捕获的动画序列等固定长度的预先录制的曲目同步生成的变体长度运行时间动画.
•输出中的语言行为和非语言行为之间的同步:言语和非言语行为是相互关联的, 相互柔顺, 需要同步.
•虚拟环境控制:不仅虚拟角色本身, 而且它所生活的虚拟环境也需要根据代理和人类用户之间的交互进行修改, 如在场景更改和相机操作.
•用户中断:提供灵活性, 使更智能的系统能够在线修改其当前行为, 而不是简单地停止这些行为, 然后启动新的行为.
为了满足这些条件, 我们的小组提出了通用体现对话代理 (GECA) 开发框架 (黄,切雷科维奇,中野,潘扎克, & 西田, 2008)。它集成了分布式和可重用的 ECA 模块, 使它们作为一个整体代理。它由三部分组成。GECA 平台是一种基于黑板和 XML 消息交换的网络通信中间件。它提供的服务包括命名服务、消息订阅和网格转发管理。GECA 插头是吸收操作系统和编程语言之间差异的图书馆, 以促进体现对话代理各组成部分包装的开发。GECA 协议 (GECAP) 是在组件之间交换的 xml 消息类型和格式的规范。在此框架的基础上, geca 假设标记语言 (gsml) 描述了人-代理交互, 并开发了其执行组件, 以补充 gecap。gsml 是一种基于 xml的 scri pt 语言, 用于为用户和代理之间的多模式对话框定义状态转换模型.
结论
正如媒体方程理论 (里夫斯 & Nass, 1996年) 所指出的, 人们倾向于把计算机和其他媒体当作有个性的人来对待。虚拟代理可以作为目标的实施例。尽管他们不一定有图形字符, 如苹果的 Siri、谷歌的 Google now 和微软的 Cortana, 但越来越多的个人助理代理已被引入, 作为人类用户和信息系统之间的接口。对话系统简化了输入过程, character 动画使系统的反馈能够更直观地理解。此外, 它们不仅提供了一个外壳, 可以帮助用户更轻松地使用系统, 还可以吸引到系统。这一研究领域启动约 2 0年来, 探讨了许多研究问题。Eca 的输出阶段和输入阶段取得了巨大成就。超现实的角色动画和语音合成具有丰富的情感表现力已经存在。然而,eca 的核心部分, 即其智力的功能, 仍然远远没有达到令人满意的水平, 为探索留下了很大的空间。我们预计, 这一领域的研究课题将在多年内继续吸引研究人员.
引用
Arafa, y., & Mamdani, A. (2003年)。脚本体现了使用 cml: 字符标记语言的代理行为。载于第八届智能用户界面国际会议论文集 (第31-316 页)。纽约 , 纽约州 : .
Becker, C., Pr所得er, h., ishizuka, m., & wachsmuth,i. (2005年)。在竞技纸牌游戏中评估3d 代理最大值的情感反馈。载于第一次情感计算与智能互动国际会议论文集 (ACI情 05) (第4666-473 页)。rlin: springer.
Boukricha, h., Becker, c ., & wachsmuth,i. (2007年9月, 9月).模拟对虚拟人类最大值的同情.在德国奥斯纳布吕克举行的第二届情感与计算国际研讨会上, 结合第30届德国艺术情报会议 (ki’ 07)提交的论文。
卡罗利斯, B. D.,佩拉乔德, C., Poggi, i., & Steedman, M. (2004年)。APML, 一个标记‐可信行为生成的语言。在 H。普伦丁格& M. Ishizuka (Eds.),生活中的人物。工具, 情感福和应用程序(第65-85 页)。纽约, 纽约州: 斯普林格。
Cassell, J., bickmore, t. , billinghurst, m. , campbell, l., chang, k., Vilhjálmsson , h., & yan, h. (1999年, 5月)。会话接口中的体现: Rea。在第17届计算系统中的人为因素会议论文集中, chi’ 99 (第520-527 页)。纽约 , 纽约州 : .
Cassell, J., Bickmore, t., campbell, l. , vilhjálmsson, h., & yan, h. (2000 a)。人类对话作为一个系统框架。在 J. Cassell, J. Sullivan, S. prevost, & e. churchill ( eds.), “体现会话代理” (第29-63 页)。马萨诸塞州剑桥: 麻省理工学院出版社.
cassell, j., stocky, t., bickmore, t., gao, y., nakano, y., ryokai, k. ,.。。维尔哈姆松, h. (2002年2月, 2月)。媒体实验室自主对话亭。在《想象》02:智能自治代理的 proc eadd中 (第2卷, 第12-15 页)。马萨诸塞州剑桥: 麻省理工学院媒体实验室.
Cassell, J., Sullivan, J., Prevost, S., & Churchill, E. e. e. e。(2000) . 体现谈话代理。马萨诸塞州剑桥: 麻省理工学院出版社.
devault, d. , artstein, r., benn, g., dey, t., fast, e., gainer, a. ,.。。莫朗西, l.–p. (2014年).辛森赛信息亭: 用于医疗决策支持的虚拟人类面试官。在 A.
洛穆西奥p. Scerri, A。巴赞& M。胡恩斯(e. e.),第十三届国际会议论文集自主代理和多智能体系统 (AAMAS 2014)(第1061-1068 页)。纽约 , 纽约州 : 。
Ekman, P., & Friesen, W. (1978年)。面部动作编码系统.加州帕洛阿尔托: 咨询心理学家出版社.
Gaschler, a., Kessler, i ., petrick, r. p. a., & knoll, a. ( 2015年)。将卷的知识扩展到具有高效几何谓词的机器人任务规划。在Ieee 机器人与自动化国际会议 (icra) (第3061-3066 页) 中 doi:10.1109/ICRA.2015.7139619
Gratch, j., ri秋, j., Re,e., cassell, j. , petajan, e ., & badler,n. (2002年)。创建交互式虚拟人员: 需要一些程序集。ieee 智能系统, 17(4), 54–63.
Gustavsson, c., 胡子, s. , strindlund, l. , huynh, q., Wiknertz , e., 万豪, a., & stallo, j. (2001年).vhml (工作草案 v0.3 版)[计算机软件手册]。从 http://vhml.org/vhml_about/html/vhml_about.shtml 检索
Hayashi, M., Ueda, H., Kurihara, t., & yamumura, m. (1999年1月)。TVML (电视节目制作语言)。从基于文本的脚本自动生成电视节目。在ieice 技术报告 (第98卷, 第1-8 页) 中。日本东京: 电子、信息和通信工程师协会.
黄, H. h., cerekovic, A., nakano, y. , pandzic, i. s., &nishida, t. (2008年)。设计一个整合体现对话代理各组成部分的 gener ic 框架。在 L. Padgham, D. Parkes, & J. p. Muller (Eds.)。在第七届自主代理和多智能体系统国际会议 (AAMAS08) (第128-135 页) 上。Richland, SC: 国际自治机构和多智能体系统基金会.
黄, H. h., Furukawa, T., Ohashi, H., Cerekovic, a ., pandzic, i. s., Nakano, y., & nishida, t. (2010年)。多个当前用户如何对关注其参与动态的测验代理做出反应。在第九届自主代理和多智能体系统国际会议 (aamas10) (第1281-1288 页) 上。Richland, SC: 国际自治代理和多代理系统基金会.
黄, H. H.,乌埃霍m., Seki, Y., Lee, J。‐H. & Kkakagoe, K. (2012年)。测量虚拟交际舞教练的用户性能, 以生成真实的‐时间反馈。ICIC 快件信,6(12), 3077–3086。
琼斯, h., sabouret, n., damian, i., baur, t. , andre, e . , porayska-庞斯塔, k., & rizzo, p.(2014年2月24日).解读社会线索, 产生可信的虚拟求职面试者情感反应.在以色列海法举行的第二届智能数字游戏促进赋权和包容国际研讨会上提交的论文.
肯顿, a.(2004). 手势: 明显的行动作为话语。剑桥: 剑桥大学出版社.
Kopp, S., Allwood, j., Grammer, k. , ahlsen, e.,& stocksmeier, t. (2008年)。模拟与机器人和虚拟人的通信。第二次Zif研究小组人类和机器中体现交流国际研讨会论文集 (第18-37 页)。柏林: 斯普林格.
Kopp, S., Bergmann, k., & Wachsmuch, i. (2008年)。多模式通信从多模态思维–向语音和手势再生产的集成模式转变.国际语义计算杂志, 2(1), 115-136. Doi:10.1142\ s1793351x08000361
Kopp, S., Gesellensetter, l., kramer, n. c., & wachsmuth, i. (2005年)。作为博物馆指南的对话代理–设计和评估一个真实的世界应用。在第五届智能虚拟代理国际会议 (IVA ’ 05) 论文集中。柏林: 斯普林格.
Kopp, s., Jung, B., lebmann, n., & wachsmuth, i. (2003年)。最大-虚拟现实构建中的多模式助手。künstlicheintellige nz, 3 (4), 11–17.
Kopp, s., krenn, b. , marsella, s ., marshall, a. n., pelachaud, c., pirker, h. ,.。。维尔哈姆松, h. (2006年)。实现多模式生成的通用框架: 行为标记语言。在第六届智能虚拟代理国际会议论文集(iva ’ 06) (第205-217 页)。柏林: 斯普林格.
Kranstedt, a., kopp, s., & wachsmuth, i. (2002年).穆尔姆勒: 会话代理的多模式话语表示标记语言(报告号。SFB 360 位于人工共用)。Bielefeld: Bielefeld 大学.
kshirsagar, s. , magenat-thalmann, n. , guyeo-vuilleme , a. , thalmann, d., kamyab, k., & mamdani, e. (2002年, 5月).头像标记语言.在西班牙巴塞罗那举行的第八届欧洲虚拟环境讲习班上提交的论文。
mindmakers. org. (2006年)。saiba 多模式行为生成框架.从 http://www.mindmakers.org/projects/saiba/wiki 检索
mindmakers. org. (2008年8月, 8月)。行为标记语言 (bml) 1.0 版 (草稿).检索 http://www.mindmakers.org/projects/bml-1-0wiki mori, m. (1970年)。不可思议的山谷能源, 7(4), 33–35.
Nakano, y. i., reinstein, g., stocky, t., & cassell, j. (2003年)。走向面对面接地的模型。在计算语言学协会第41届年会记录中 (acle03) (第553-561页).
西田, T. (编辑)。(2007) . 会话信息学: 一种工程方法。纽约, 纽约: 约翰·威利 & 儿子公司
冈崎, N, Aya, S,萨伊约尔, s., & IshizukaM. (2002年11月)。用于3d 虚拟空间的多模式演示文稿标记语言 MPML-VR.在澳大利亚墨尔本举行的 “虚拟对话角色: 应用、方法和研究挑战” 研讨会上发表论文。
潘兹奇, i. s., & f-兰海默, r. (eds.)。(2002) . Mpeg‐4面部动画的标准、实现和应用。Chichester: John Wiley & Sons ltd.
pelachaud, c. , carofiglio, v. , roosis, f. de, & poggi, i. (2002年)。在提供应用程序的信息中嵌入上下文代理。第一次自主代理和多代理系统国际联席会议论文集 (AAMASS02) (第758–765页).多伊:
10.114/54482.54 4921
普伦丁格, H., Descamp, s. & Ishizuka, M. (2002年)。编写与生活的情感交流脚本‐像网络中的字符‐基于交互系统。应用人工智能,16(7–9), 519–553。
普伦丁格h., & Ishizuka,M. (e. ds.)。(2004年)。类似生活的字符-工具、情感功能和应用程序柏林: 斯普林格。
Reeves, B., & Nass, C. (1996年)。媒体方程式: 人们如何像对待真实的人和地方一样对待电脑、电视和新媒体.伊利诺伊州芝加哥: 芝加哥大学出版社.
Thiebaux, m., marshall, a. n. , marsella, s ., & kallmann, m. (2008年)。智能-主体: 体现协同代理的行为实现。第七次自主代理和多代理系统国际会议论文集 (aamas08) (第151-158 页)。Richland, SC: 国际自治代理和多代理系统基金会.
Trum, d., bos, j., Cooper., r., larsson, s., lewin, i., matheson, c., & poesio,m. (1999年).对话动作和信息状态修正模型(报告号。D2.1). 瑞典哥德堡: 哥德堡大学语言学系。从trindi项目网站检索: http:///www.ling.gu.se/projekt/trindi/private/deliverables/D2.1/D2.1.pdf
Vilhjálmsson, h., cantelmo, n., cassell, j. , chafai,n . e., kipp, m., kopp, s. ,… 范德沃夫, r. j. (2007年)。行为标记语言: 最近的发展和挑战。在第7届智能虚拟代理国际会议 (iva ’ 07)的论文集中 (第99-111 页)。法国巴黎: 斯普林格.
网络3D 联盟。虚拟现实建模语言 (vrml) (iso/iec 1472-1: 1997)。从 https://www.iso.org/standard/25508. Html 中检索
Zlotowski, j. a. , sumioka, h. , nishio, s. , glas, d. f., bartc科, c., & ishiguro, h. (2015年)。不可思议的山谷的持续性: 反复互动和机器人的态度对其感知的影响。心理学前沿, 6, 883.