论文翻译：Application of an Ontology-Based Platform for Developing Affective Interaction Systems

最新推荐文章于 2022-08-10 10:41:33 发布

tjut_zdd

最新推荐文章于 2022-08-10 10:41:33 发布

阅读量507

点赞数

分类专栏：人机交互文章标签：本体论

本文链接：https://blog.csdn.net/tjut_zdd/article/details/89196943

版权

人机交互专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要

计算机系统需要有足够的能力和智能与人进行通信。为此，他们必须能够解释或管理人们在人类交流中习惯于感知的某些类型的信息，如语音调制、面部表情等，并将人类情绪考虑在内。本文所提出的基于本体的平台试图支持需要考虑情感传递的资源的开发，特别是在用户和交互系统之间的通信中。为此，我们研究了与情感状态传递相关的因素，并将其纳入本体论。基于这种本体论，创建了一个平台来指导情感资源的开发，为用户提供更自然的界面。最后，建立了一个交互式多模式系统，验证了所提出的基于本体的平台，并将该研究应用于实际案例。
索引项：情感计算、情感识别与综合、交互上下文建模、本体知识表示。

1、介绍

多模式交互是为了向用户提供满足其个人需求所需的多种交互模式。不幸的是，现在人们使用的许多设备的交流主要是通过口头交流（书面文本）和中立或不动感情的方式进行的。此外，隐式传输的非语言信息经常被忽略。这些信息在人类交流中是必不可少的，用来表达我们的情感。包含情感可以提高人们的理解水平，减少信息的模糊性，例如包括表情符号，从而改善互动。根据Mehrabian[1]的研究，人类交流中传递的信息约有90%是非语言的，而传递的语言信息仅占人与人之间交流信息量的10%左右。此外，据皮卡德[2]所述，与人际关系相关的这些特征也出现在与计算机的交流中。

因此，人机交互系统应该能够解释来自人类的信息，并根据这些信息生成响应。这导致了情感计算领域的出现[2]–[4]，该领域研究使用基于计算机的技术检测和响应用户的情绪。这项技术可以通过使智能系统在发出响应时自动与用户交互并做出自己的决定来完成智能系统的开发，而无需任何人工干预。因此，用户和智能系统的共同目标可以更有效地实现。

目前，建模特定领域知识最广泛使用的机制之一是使用本体。本体论的主要目标是表示现实世界的概念，以及这些概念之间的关系。为此，必须达成共识，并指定共享此信息的常用词汇。因此，可以在人员（如设计师或开发人员）之间以及软件代理（如智能代理）之间共享知识，并向这些人员或软件代理提供与特定领域相关的概念和术语。此外，本体论有足够的机制，可以让需要它的开发人员重用这个领域的知识，而不必创建一个新的领域[5]，并且它们允许对模型实例进行推论，从而产生其他方法不容易获得的假设。因此，作者利用本体技术创建了一个平台来指导情感资源的开发，同时考虑到用户周围的环境。在这方面，有必要研究和分析人类的情感和认知模型，以便了解他们的行为，并通过适应人们的个人需求和特征的互动来改进系统，继续进行[6]–[8]中的工作。

在下面的章节中，我们将介绍一些相关的工作和受影响的模型。这些模型是那些已经在基于本体的平台中使用的模型。接下来，详细描述了这个平台。在此基础上，提出并评价了基于该平台的多模态交互系统，以验证该平台的有效性。最后得出了一些结论，并提出了今后的工作方向。

2、相关工作和模型

与情感或其他情感现象有关、产生或故意影响的计算是情感计算的形式描述，最初由picard[2]定义。其基本思想是，考虑到人的情感特征，可以显著改善与计算机系统的交互通信。根据皮卡德的观点，主要目标是赋予计算机情感智能，即识别、解释和产生情感的能力。

但是，为什么计算机需要能够识别、解释和产生情感？有几个领域受益于情感计算系统，包括：电子学习，远程医疗，机器人和心理治疗。例如，在电子学习领域，系统可以确定学生的情感需求，从而激励用户学习，并通过使用情感来保持他们的注意力。

另一个重要的问题是计算机如何识别、解释和产生情感？Peter Lang提出了一个模型，其中包括三种系统或通信方式。根据[9]所述，这些沟通方式涉及到情绪的表达，也可以作为检测用户情绪的指标：

•口头信息：包含用户感知或传输的明确信息。

•行为：面部和姿势表达、语言副语言参数等。

•心理生理反应：如心率、皮肤电反应（GSR）和脑电图反应。

例如，对于语音通信方式，必须考虑适当的参数（例如音量、音调和速度），以产生或识别情绪。这是为了能够模拟反映用户情感状态的不同情绪，或者在识别器的情况下，创建用于对用户传递的情绪进行分类的模式。

因此，代表所有这些知识，特别是模拟情绪是至关重要的。认知心理学提出的情感理论是情感状态建模的一个有用的起点。人机交互（HCI）领域最常用的情绪分类理论是分类理论[10]、维度理论[11]和评价理论[12]。由于实际原因，情感分类模型在情感计算中的应用越来越频繁。例如，Odeyer[13]开发了一些基于语音参数的五种情绪生成和识别算法。一些理论家也提倡情感的维度方法，比如泰勒根[14]。情感维度是对情感状态基本特征的简化描述[15]。最常见的情感维度是配价、唤醒和支配[16]。价维度与感觉良好或不好有关，甚至给出正面或负面的标签[17]。激发维度衡量一个人有多兴奋或平静。最后，优势维度度量用户是否控制情况或他/她是否受情况控制。评价理论模型提供了一个描述情绪的框架，基于人在情绪状态的焦点处经历事件、事物或人的方式[12]。

一个叫做sam（自我评估模型）[16]的工具可以用来表示或指示基于维度理论的情绪。Sam是一种非语言图像评估技术，由对应于三个维度的三个尺度组成：价、唤醒和支配。每个尺度由代表一个人的五个数字组成。这些刻度具有9个值的范围，从1到9编号。山姆的配价表从左到右描述了这种情绪是多么令人愉快或不愉快。唤醒范围从完全活动状态到平静状态。在优势等级中，最左边的数字代表一个自我意识的人，而最右边的数字则是最能传递控制感的人。

由于认知过程对影响有着显著的影响，研究人员还必须考虑哪些过程涉及，它们如何工作以及它们如何影响人机交互。一些作者，包括Wickens[18]，认为一个人的认知系统包含几个感觉系统。人与计算机之间的交互发生在信息交换时。计算机以物理的方式呈现信息，人必须通过他/她的感官系统来获取信息[19]。这些感官系统能够从环境中提取信息。感知过程分析通过感官系统接收到的信息，并对感官系统接收到的物理刺激赋予意义。接下来，感知到的信息存储在内存中，并有可能在以后被检索和使用。在这种情况下，用户使用从他/她的内存中检索到的信息生成响应，并对其进行分析、比较和解释。此响应由计算机的外围设备通过其通信通道接收。

我们还必须提到万维网联盟（W3C）多模式交互工作组的努力，该工作组旨在制定开放标准，以扩展万维网，以允许任何人、任何地点、任何设备和任何时间的多种交互模式[20]。他们提出了几个与情感计算和多模态相关的W3C建议，例如情感标记语言（EmotionML）1.0[21]和可扩展多模态注释（Emma）标记语言1.0[22]。基于这些W3C标准，为了获得自然的用户界面，已经进行了一些开发[23]。

除情感理论、沟通方式等外，还必须考虑其他外部因素，以描述一种导致人与互动系统之间产生情感互动的情况。可以分析一个人传递的刺激（例如生理信号），以检测产生的情绪。然而，在许多情况下，与周围环境相关的其他方面可能会引起兴趣，以便更好地了解这种情况。

在这方面，göker和myrhaug [ 24 ] propose模型在用户上下文的定义。在这个模型的伙伴关系，从个人方面相关的用户，其他类型的元素的问题或是被视为在秩序，到了“上下文”的用户。这也是主要的上下文的五元素：

•背景：环境，包括环境方面的数据，如相关的用户是一个地方（服务对象，噪声，光，天气，温度，等）。

•个人：包括个人背景，生理（血压，脉搏，体重，等）和心理（情绪、专业知识、应力等）的数据。

•任务上下文：个人介绍什么是做在这个用户的上下文（明确的目标、行动、活动等）。

•社会环境：社会方面介绍当前用户上下文（相对于角色的邻居，朋友，敌人，等）。

•时间：时空上下文的用户上下文的情况，介绍与之相关的时间和空间（时间，位置，方向，速度等）。

这个模型和本节中解释的大多数模型已经用于描述提议的本体和基于它的平台，下一节将详细介绍。

正如我们所看到的，有几个模型代表人类的情感，考虑到一个或多个上下文元素[25]。此外，还可以找到通过不同方式识别和产生情绪的系统[26]–[30]。其中很少有系统或平台能够为不止一种形式和上下文中的各种元素收集知识，并利用这些知识为情感资源的生成提供支持，这就是所提议平台的理念。

3、基于本体的情感互动系统开发平台

本文提出的基于本体的平台的主要目标是支持在用户和系统之间的交互中需要考虑情感传递的资源开发。

让我们介绍一个场景来帮助描述用户和系统之间的情感交互（参见图1）。拟议工作的目标之一是能够用附属本体来表示这些类型的场景和情况。因此，可以为开发一个能够适应用户情况的情感系统提供知识基础。
在这里插入图片描述
图1：一种场景，表示一个人和一个系统之间的上下文感知的情感交互。

图1中的场景显示了一个人在电子学习系统中的学习过程。该系统的开发是为了促进个人学习，将学生的情绪考虑在内。该系统使用虚拟化身来增强学生的学习动机。在这个例子中，一个与电子学习系统的交互作用使学生变得悲伤。图中还显示了围绕这种互动的上下文；也就是说，可能影响学生情感状态的因素和属性。还有其他可能对交互没有影响的因素，例如位置和附近的其他人。

本节分为三个部分。首先，详细介绍了作为平台知识库的仿射本体。然后，描述了本体用于分析从类似情况（如图1所示）中提取的数据的方法。最后，描述了基于本体的平台。

A.附属于本体论的描述

附属本体定义了用户和系统之间的交互。图2显示了使用Protégé工具开发的本体。在设计本体论时，文献中发现的各种模型都被考虑在内。一些与用户相关的模型通常用于认知心理学领域。系统上下文模型也基于这些用户模型以非常相似的方式定义；即在给定的交互中，用户和系统都被视为对话者。

此外，上下文通常被认为是用户外部的。然而，在本研究中，用户被视为上下文的一部分（包括他/她的个人特征）。因此，语境涵盖了人与系统之间情感互动的一切。

这个本体可以应用于自动生成接口的系统。因此，本体可以提供用户和设备特性的信息，以便选择最合适的多媒体资源。此外，它还可以应用于多模态相互作用系统。在这种情况下，它可以建议系统应使用哪种通信方式与特定用户交互[7]。

附属于本体论也提供了关于情感互动的知识，因为它被认为是必要的包括情感互动，以提高自然性。也就是说，虽然系统知道给定用户最合适的交互模式，但是如果系统不以自然和表达的方式与用户交互，那么交互对该用户来说仍然不够。

这种上下文模型是情感交互定义的基础，因为它描述了生成和识别用户情感状态的不同因素。此外，该模型允许相关概念的连贯整合，因为当使用主题上下文时，可以描述认知过程。

根据Göker和Myrhaug[24]提出的模型，可能影响交互作用的因素被分为五个上下文元素或属性（见图2中从1到5的属性）。然而，在本研究中，作者使用主题上下文概念，而不是使用个人上下文概念，以便也包括系统上下文，而不仅仅是人类上下文（参见图2方框4中的个人属性和系统属性）。
在这里插入图片描述
图2：附属于本体论。

为了表示与情感互动相关的知识库，对这些上下文元素进行了建模。尽管如此，主题语境模型（同样，图2方框4）的意义还是最大的，它包括了主题的身体、认知和情感状态：

•人们认为，与人类情感相关的传播模式是lang[9]提出的，它们是用户在个人环境中的身体状态的一部分（见图2框（a））；

•认知状态也包括在内（参见图2方框（b）），因为认知过程参与情感的理解和表达。从人类的角度来看，听觉、动觉和视觉的过程，除了语言和言语的感知和口头的过程。从系统的角度来看，这里包括音频提取、键盘鼠标输入、语音合成、视频提取过程、音频解析器、视频处理和对话系统。为了做到这一点，作者使用了Wickens提出的一般模型[18]；

•最后，情感状态也被表示出来（参见图2方框（c）），因为它们与人与系统之间的互动和交流，甚至与身体和认知状态都有很强的联系。用户体验情绪的方式或趋势应使用适当的词汇进行登记和分类。不同的情绪理论（[10]–[12]）可以用不同的方式表示相同的情绪（参见图2中的元素（d））。

OWL语言[31]已经被用来开发这个本体。这种语言允许通过导入其他现有的本体来轻松地共享、重用、修改甚至扩展本体。

让我们描述仿射本体的设计和结构。本体有五个主要概念，如图2所示：仿射交互上下文、上下文属性、蕴涵模式、刺激类型和理论。这五个概念定义如下。

AfterInteractionContext表示围绕人与系统之间的情感交互的全局上下文。它由几个元素或属性组成，每个元素或属性属于上下文属性类。已创建一个对象属性来定义此关系（请参见公式1）。

公式1:: AffInteractionContext → ∃ hasContextProperty some Context_property

在交互上下文中的任何属性都被视为上下文属性；交互中涉及的每一个元素或细节，无论是噪音、手势、动作、记忆或任何刺激，都可能影响受试者及其情感状态。

HasContextProperty关系用于定义在上下文中找到的每个属性；例如，图3显示了AfterActionContext类的一个会话上下文实例，该实例作为一个属性具有高级别的Noise实例，这些实例使用称为HasContextProperty的属性及其反向Pro相互关联。Perty是的ContextProperties。

现在让我们看看上下文属性是如何定义的。如上所述，存在于交互中的每个刺激都被定义为上下文属性，并且它将至少属于一个上下文属性类型：环境、社会、时空、任务或主题属性。因此，人们可以收集信息，例如，关于用户在交互中经历的刺激或关于环境因素（如环境温度）的信息，以及关于合成器在特定情况下应具有的语音特征的信息。

根据[24]的规定，标的财产又是环境背景下的一个子财产：

‘’…用户上下文的这部分[环境部分]捕获围绕用户的实体。例如，这些实体可以是事物、服务、温度、光、湿度、噪音或人。用户在当前用户上下文中访问的信息（例如文本、图像、电影、声音）都是环境上下文的一部分。….’’

基于这个观点，参与情感互动的每一个主体都属于其他主体的环境语境，这些主体也参与了同样的互动。

基于对不同类型上下文属性的这种分类，affinto还对对象属性进行分类（参见图4）。因此，研究人员应该使用一个更具体的对象，例如hasEnvironmentProperty或hasNoise，而不是图3中示例的hasContextProperty。
在这里插入图片描述
图3：名为hasContextProperty的对象属性将会话上下文实例与高级别的干扰实例连接起来；以及名为isContextPropertyOf的反向函数的对象属性。

在这里插入图片描述
图4：用于定义上下文属性的对象属性层次结构。

也可以描述每个主题（个人或系统）的含义。有很多交互的可能性，例如：几个用户在同一个系统中分享经验；一个给定的用户在他/她的范围内拥有多个智能设备；或者有一些人不直接参与交互环境，但是他们发出的噪音正在影响一个情感交互环境。tion. 为此，Affinto使用了蕴涵模式概念（参见图2中的（e）平方），它由蕴涵的外部和内部模式组成。在内部模式的情况下，可以使用发送器或接收器等概念来确定哪个受试者正在发送刺激或谁正在接收刺激（或经历他/她/她的情感状态的一些变化）。在外部模式的情况下，那些不直接参与情感互动，但可能影响情感互动的元素可以在本体论中被指出。如图5所示，识别每个暗示模式的作用（其中有发送器主体、接收器主体和一些影响交互的外部主体）。
在这里插入图片描述
图5：两个内部对象（发送器和接收器）之间的情感互动和一些外部对象的影响。

仓促的客体属性用来表示构成情感状态的情感，也就是说，利用这种属性，一种情感可以与不同的分类理论相联系。到目前为止，在afinto中定义了三种分类（分类、量纲和评价）。在每个分类中，可以使用称为引用的数据类型属性注册多个理论。例如，人们可以用快乐的情感价值来记录一个刺激，并表明他们使用了Ekman提出的分类理论来表示它。

afinto的最后一个主要概念是刺激类型（参见图2中的元素（f））。情绪不仅受环境或社会因素的影响。显然，对话者传递的刺激对特定的人也有很大的影响。利用这个概念，我们可以描述一个已经发生的情况，并区分一个刺激是否作为另一个刺激的反应出现。交互通常是一个双向的过程，因此分析用户传输的刺激来确定他/她的情感状态是不够的。例如（回到图1中的示例），其他人、温度和时间刺激可以被视为动作刺激，而面部特征或生理信号（即导致使用者的悲伤）的变化可以被视为反应刺激。因此，分析可能影响交互的各种上下文属性很重要，以便理解用户以特定方式做出反应的原因。因此，这些概念有助于作者描述在用户中引起某些情感状态的情况。affinto包含hasstimulstype对象属性来表示属性的刺激类型。

B.对所涉及的因素的分析

为了确定影响给定情感状态的因素或属性，可以搜索该情感的所有用途（见图6）。
在这里插入图片描述
图6：与EmotionsP_000001实例（情感类实例）相关的属性。

还可以识别与此情绪对应的情感互动语境实例（即情绪产生的语境），以分析互动中涉及的所有属性和刺激，以及它们以何种方式参与。可以使用反向函数的is_personalaffproperty_来标识这个实例（参见图6中突出显示的afinteractioncontext_000001）。图7显示了图1场景的情感交互上下文中涉及的属性。
在这里插入图片描述
图7：属于AfterInteractionContext类（包括EmotionsP_000001）的AffInteractionContext_000001实例的属性。

关于环境背景，我们可以看到某些因素（如环境温度或另一个烦人的朋友）影响了互动。人们还可以看到时间可能会对人和系统中的噪音产生影响，这两者都是这种相互作用的环境背景的一部分。一个可以包括额外的信息，例如在这个交互中的人的角色（学生）或交互的两个主题正在执行的任务（电子学习）。

C.基于本体的平台描述

如前所述，本体的使用允许作者收集信息作为知识库，并分析这些信息，以便通过使用不同的资源或计算应用程序来识别、解释和生成情感状态。因此，基于仿射本体，已经创建了一个平台，使这些类型的应用程序的开发更加容易（参见图8）。
在这里插入图片描述
图8：基于本体的情感交互系统开发平台。

本文提出的基于本体的平台的主要目标是支持在用户和系统之间的交互中需要考虑情感传递的资源的开发。

这个平台由几个模块组成。在环境语境中，有两个主题（人和系统），其他语境类型也包括在内（社会文化、任务和时空语境）。

根据要开发的交互系统的功能（即是否需要情感识别过程和/或情感合成过程），使用这些模块执行的过程将有所不同（取决于用户和系统之间的通信方向）：

1）第一阶段

在情感识别过程中（当用户向系统发送信息时），模块的过程如下（有关该过程的更多细节将在下一节中介绍）：

步骤1.1（输入/输出设备模块）：根据系统使用的通信信道，信息将被传输到相应的输入设备。

步骤1.2：然后，信息提取和合成模块从消息中提取必要的数据（例如，面部或语音特征）。

步骤1.3（解释/响应（I / R）引擎模块）：执行与所使用的通信信道相对应的处理，以便分析所提取的数据。例如，一些数据挖掘技术被应用于提取的特征以估计消息的情感状态。

步骤1.4：为了分析这些数据并估计情感状态，I / R引擎使用在Repository中收集的信息，该信息主要由Affinto本体组成。

步骤1.5：在交互是双向的情况下（即系统必须生成对用户的响应），必须使用合适的机制（例如对话系统）。 I / R引擎也管理这个过程。

如果系统是多模式的，则在此识别过程中必须考虑多个通信信道（每个信道都有自己的百分比）。

2）第二阶段

在情感合成过程中（当系统生成要发送给用户的信息时）：

步骤2.1（I / R引擎模块）：如前面在识别过程的步骤1.5中提到的，必须生成消息以便与用户交互。因此，必须收集必要的数据以便撰写合适的消息。该模块可以使用Affinto本体来识别合成器应该在特定消息中使用的合适信息或特征。

步骤2.2：识别出合适的数据后，信息提取和合成模块组成消息。也就是说，系统必须包括先前获得的信息作为合成器的参数。

步骤2.3：将消息重定向到相应的通信信道，最后通过相应的输出设备发送给用户。

在下一节中更详细地解释了这两个过程，因为已经开发了基于所提出的平台的多模态交互系统。创建该系统的目的是验证由所提出的平台引导的情感资源的发展。

4、用实证研究验证基于本体的平台

平台的验证过程分两个主要步骤进行。在第一步中，仅针对一种通信模式开发了交互系统;特别是口头形态（书面文字）。该验证的结果发表在[6]中。在第二步中，开发了多模态交互系统。在本节中，将首先展示基于本体的平台如何指导这种多模式交互系统的开发;特别是它是一个名为AFFIN的情感对话系统。然后，解释了与创建的会话系统的实证研究。

请记住，它是一个会话系统，它包括识别，解释和综合过程。为了使所有这些过程成为可能，系统使用非本体作者开发的软件来使用本体和存储在其中的信息。使用外部软件增强了本体和用于创建情感资源和/或系统的平台的有用性。

A. AFFIN：多模式的情感对话系统

会话系统，也称为对话系统，是允许用户与之交互的智能界面。它们通常使用人类最常见的通信方式之一（语音），并代表人类计算机交互技术的重大进步。

这些系统还集成了自动语音识别，自然语言处理，对话管理，语音合成等技术[32]。为了验证该平台作为开发情感计算应用程序的支持工具，并依次验证Affinto本体作为这些应用程序的知识库，作者开发了AFFIN：一个用于文本和语音的多模式会话系统，能够识别，解释和产生情感。该系统集成了上述技术。关于AFFIN的情感识别系统，所执行的过程是个性化过程。也就是说，为了识别由给定用户发送的情绪，执行识别的分类器使用先前由该相同用户存储的数据。以这种方式，如果收集每个用户的足够信息，则获得的结果比使用由许多用户特征组成的一般语料库获得的结果更准确。

图9显示了为AFFIN系统开发而创建的体系结构。可以看出，该体系结构的设计基于所提出的基于本体的平台，并且已经开发了一些模块用于实现会话系统的目标。可以看出，系统用于与人交互的频道是口头的（用于通过书面语言传递口头信息）和语音（用于通过语音传递副语言特征）。
在这里插入图片描述
图9.：AFFIN系统的体系结构。

系统通过其界面及其通信渠道提供的媒体资源不应该避免有关情绪的信息。为此，通过使用Affinto本体，系统可以提取关于在情感上丰富界面所需特征的信息，以及要发送给用户的刺激。相反，系统还可以提取关于某些用户的通信模态特征的信息，以便通过使用先前在本体中收集的信息来识别用户的情感状态。

让我们再次将用户和系统之间的交互分为两部分：情感识别过程和情感合成过程。

1）第一阶段

AFFIN的情感识别过程。区分两个一般步骤，每个步骤用于每个通信信道：（a）文本和（b）语音。

步骤1.1（基于文本的情感识别器过程）：关于基于文本的情感识别器（参见图9中的语言频道），已经选择了基于情感词典的方法。在这种情况下，使用ANEW情感词典[33]。 ANEW中的每个单词都具有通过三个维度表示的情感价值：效价，唤醒和支配。这些词中的每一个都在Affinto本体中被注册为一种互动，以及它的情感价值[6]。一旦作者在本体中获得所有这些信息，基于文本的情感识别器执行的过程如下。

首先，语言通道模块通过输入设备麦克风接收文本。 AFFIN使用名为Sphinx 4 [34]的语音识别器来提取用户发送的单词。然后，语音通道模块将消息发送到信息提取和合成模块。该模块对消息进行语法分析，使Verbal I / R模块能够用情感值标记名词，副词，形容词和动词。由斯坦福自然语言处理小组[35]创建的解析器用于执行此操作。解析器还检测与否定相关的单词以反转其情感值。在I / R引擎中，因此通过使用存储库（即Affinto本体）来确定这些单词的情感值以获得给定文本的平均情绪值。这样，作者获得了用户发送的文本的情感价值。

众所周知，所发送的非语言信息比人类对话中的语言信息更重要[1]。因此，根据Mehrabian的估计，当解释用户传输的情绪时，系统（参见图9中的全局I / R模块）将占基于文本的情感识别器获得的值的10％。

步骤1.2（基于语音的情感识别器处理）：剩余的90％是从基于语音的情感识别器获得的。关于这个语音识别器，过程如下：如在文本识别器中，语音识别器也使用Sphinx-4工具。在这种情况下，Sphinx-4在语音通道中记录传输的语音。信息提取和合成模块（在此过程中，对应于语音的模块）然后使用名为Praat [36]的工具提取语音的副语言特征。使用此工具，AFFIN系统从用户的声音中提取十一个功能。这11个特征分为三类：（1）语音或音高（也称为基频） - 平均值，最大值，最小值和标准差; （2）语音强度或音量 - 平均值，最大值，最小值和标准差; （3）Formants（声音谱中的强度峰值） - 以F1作为最低频率共振峰，然后是F2和F3。

一旦系统执行了这些功能的提取，I / R引擎模块就会解释此信息。存储在Affinto本体中的信息用于此目的。当用户执行培训过程时收集该信息;即他们第一次使用会话系统。还可以收集在训练过程之后执行的交互。这些交互中的每一个都被存储并用用户发送的情绪值标记。有几种方法可以识别语音中的情绪[37]，[38]。在这项研究中，K-Narest Neighbors（K-NN）算法[39]已被应用。因此，作者具有来自给定用户的交互的最近提取的特征集以及与该用户执行的若干交互相对应的特征集，包括情绪值。因此，语音I / R模块可以通过应用该算法仅基于语音特征在交互中获得该用户的情感状态。

2）第二阶段（与AFFIN的合作合成过程）

在识别出用户的情感状态之后，系统生成响应。为此，它必须将用户的消息与其情感值一起解释。 I / R引擎模块使用由ALICE项目[40]开发的对话系统来完成此任务。该系统使用AIML标记语言和该语言的解释器。解释器在存储库中有一些AIML类别，用于根据文本输入创建消息，但已为此验证创建了更多类别。创建新AIML类别的主要目标是将情绪作为输入信息包括在内，并根据这些情绪选择合适的反应。此外，情绪信息也包括在口译员的回答中。因此，再次区分两个通信渠道：

步骤2.1（基于文本的情感合成过程）：将上述响应消息发送到语言通信信道。

步骤2.2（基于语音的情感合成过程）：将一组合适的特征发送到语音信道，以便语音合成器（称为FreeTTS [41]）可以通过输出设备产生情绪话语; 即发言者。为了识别与合成器必须传输的情感相对应的特征，AFFIN再次使用本体。

生成合成语音消息后，AFFIN现在准备好接收来自用户的下一条消息。

B.与AFFIN系统的实证研究

在以下小节中，介绍了验证AFFIN系统的实验研究（用一些实验对象进行）。本研究的主要目的是证明使用基于本体的平台有助于开发情感计算应用程序，甚至使用外部开发的软件。该研究还有助于证明Affinto本体作为这些类型应用程序的知识库。

1）实验中的参与者

14名志愿者参加了实验：9名男性（平均年龄32.22; sd = 9.00;年龄范围= 24-53）和5名女性（平均年龄32岁; sd = 8.07;年龄范围= 26-47）。他们被要求用英语表明他们的水平。其中五人回应良好，其余九人回应可以接受。

考虑到通过三个维度表示参与者传递的情绪可能非常困难，进行了法官间的协议测试。三名评估员必须听取培训过程中的所有录音。在该测试中，测量了称为Kendall的Tau-b的相关系数，以便比较每个参与者表达他/她表达的内容与评估者对相同记录的看法。 Dominance维度测试的结果是，四名评委（参与者和三名评估员）之间的相关性对于14名参与者中的任何一名都不重要。可以推断，对于参与者和法官来说，通过这个维度表达情绪是非常困难的。对于其他两个方面，法官在Valence案件中比在Arousal案件中更多地达成一致。

由于肯德尔的Tau-b系数非常低，因此丢弃了一致性较低的数据，只有那些显示出高度显着相关性（双侧预测p <0.05）的数据才被认为是有效的。因此丢弃了14名参与者中的6名，并且使用剩余的8名参与者的结果进行了验证。通过这种方式，作者确保参与者正确地进行了训练。

2）材料和工具

建立AFFIN系统是为了开始培训并使交互适应每个用户和他/她的特征。对于该研究，分析了AFFIN识别器的结果。

与外部资源相关，IAPS（国际情感图片系统）图像[42]用于诱导参与者的情绪。

一些用于Sphinx-4识别器的JSGF [43]语法和用于对话系统的一些AIML类别也被创建用于控制实验。

此外，选择维度理论来表示用户的情绪。为此，使用了SAM测量工具（参见“相关工作和模型”部分），但对其进行了一些修改。

最相关的是在系统的用户界面中，显示识别器的结果：不是使用不同的图像来显示三个刻度中的每一个的情感，而是将三个维度的值集成到单个中图像，以及系统结果的确切值。例如，如果系统想要表示Valence音阶中的’7’情绪，唤醒音阶中的’5’和Dominance音阶中的’9’，而不是使用三个音阶和每个音阶的分数其中一个刻度，系统显示图10（a）所示的图像。这种变化的目的是能够在单个图像中轻松直接地看到情绪的表现。
在这里插入图片描述
图10：将三个SAM比例集成到单个图像中的两个图像的示例。它们代表的值分别是：（a）（7,5,9）和（b）（1,3,3）。

3）实验设计

该实验分为四个阶段。前三个用于正确执行AFFIN的训练，最后一个用于实时进行情感识别。

由于实验的主要目的是检查系统是否能够与参与者进行对话，并能够解释他们传递的情绪，在训练阶段，参与者必须指出他们真正想要传递的情绪，为了检查准确性（虽然这不是实验的主要目的）。因此，识别器具有用于识别交互中的情绪的基础，并且作者还可以确保存储在本体中用于后续识别的数据是正确的。

实验的设计是一个主体内设计; 即所有受试者或参与者必须执行四个阶段。受试者共发送了38个有效的话语。实验中使用的语言是英语。

4）实验程序

实验者在一个房间里单独会见每个参与者。首先，参与者收到了进行实验的一般和具体说明，他/她必须完成人口统计调查问卷。之后，他/她开始了会议。每次会议持续约一个小时。参与者遵循的过程如下所述，逐步说明：

a：第一阶段（基本训练）
参与者必须用界面中指示的情绪发出18个句子。因此，作者获得了对应于不同情绪的语音特征（使用维度表示，例如hvalence = 1;唤醒= 1;支配度= 5i）。

b：第二阶段（接触）
系统以简单的问题或问候语开始对话，并且参与者做出响应。根据回应（传递的信息和情感），AFFIN继续提出不同的问题。在这个阶段，受试者可以表达自己的情绪，但如果AFFIN没有正确识别情绪，他们必须纠正这些价值观。在此阶段，参与者必须总共发出5个句子。

c：第三阶段（不同情绪表达的反应）
在这个阶段，已经创建了问题，由参与者回答表达特定情绪（基于维度值）。在这种情况下，参与者必须选择三个建议答案中的一个（他/她最能识别的答案）。为了帮助参与者感受和表达这些情绪，为每个句子显示了两个IAPS系统图像，这些图像旨在引起参与者的情绪。每个参与者在第三阶段发出9个句子。

d：第四阶段（通过实时分类进行的有效识别）
与第三阶段一样，参与者必须选择三个建议答案中的一个。然而，在这种情况下，他/她必须表达的情感是自由选择的（这更自然）。他/她不必纠正系统识别的情感值，因为这不是训练阶段。然而，他/她必须指出表达的真实情绪，以便稍后与情感识别器的结果进行比较。参与者必须在第四阶段传送6个话语。有了这个，实验就结束了。

5）实验结果

为了对实验中获得的结果进行分析，进行了法官间协议的评估。还计算了肯德尔的Tau-b相关系数。为此，分析了从第四阶段的AFFIN识别系统获得的结果与参与者指示的情绪值之间的相关性。

结果证明，对于大多数参与者而言，相关性是积极的，但并不显着。这可能是由于样本数量较少（N = 6）。为了扩大样本量，Kendall的Tau-be系数已经计算了第四阶段所有参与者的整个数据集（虽然整个数据集同时进行评估，但这种方法评估了各种法官的一致性。相同的数据）。因此，样本大小变为N = 48（对于8个参与者中的每一个，6个交互）。

在Dominance维度中获得最高系数，Kendall’s Tau-b = 0.368，N = 48，p = 0.02;然后，在Valence维度中，Kendall的Tau-b = 0.329，N = 48，p = 0.04;最后，在Arousal维度中，Kendall的Tau-b = 0.208，N = 48，p = 0.06。

表1显示了每个参与者的平均误差（范围从0到8，因为SAM比例使用1到9的值）和情绪识别的准确度百分比。所有这些数据都基于第三阶段培训的情感维度和第四阶段的实时分类。
在这里插入图片描述
表1：在训练期间和之后情绪识别的误差差异和准确度百分比。Val. = Valence。 Aro. = Arousal。Dom. = Dominance; P1-P8 =参与者身份; ％=情感识别的准确度百分比。

其中一些准确度不是很高，但即使在人类中也几乎不可能达到100％。其中一个原因可能是实验中使用的语言不是参与者的母语。因此，与AFFIN进行的对话并不完全自然，参与者无法表达他们想要表达的情感。此外，在某些情况下，他们可能无意中表示不是真实情绪的情绪，从而错误地训练系统。这方面的证据是评估由三名评估员执行的法官间协议。分析肯德尔的Tau-b相关系数，认为他们很难表达他们想要的三维情绪。

另一个原因可能是培训没有包含大量数据。大多数识别技术使用大型数据库来对从用户获得的特征进行分类，从而解释由它们表达的情感。在这种情况下，所执行的识别过程是个性化过程，其中参与者训练他/她自己的行为以及向系统表达情绪的方式。因此，可以使系统适应人。但是，在单个会话中，系统无法存储足够数量的数据来准确地解释与参与者保持的对话。

6）关于实验的讨论

法官间协议的第一次评估有助于确定哪些参与者正确地执行了培训过程，从而丢弃那些没有高度显着相关性的人（通过测量肯德尔的Tau-b系数，p <0.05）双边预测的水平）。

K-NN归纳学习算法用于执行训练过程的每个参与者，以便将数据与不同的情绪相关联。如先前在表1中所示，识别系统获得的值与第四阶段的实时分类中参与者给出的值之间存在正相关。此外，这种相关性在Valence和Dominance的情况下是显着的（在水平p <0.05，双侧预测）。 Arousal的相关性不显着，但p值不是很高（p = 0.06）。

关于在训练阶段获得的值，结果在第四阶段得到改善（参见表1）。作者可以通过向识别器添加更多信息来推断结果得到改善，但维度Dominance除外。虽然这个维度的结果是最优的，但在第四阶段，它们恶化而不是改善。此外，在与三位评估员的法官间协议的第一次评估中，Dominance维度的相关性并不显着。这可能是因为用户通常习惯使用诸如快乐，悲伤，恐惧等类别来表示情绪。由于该验证中使用的理论是维度理论，因此参与者发现更难以表明他们在每个话语中传递的情绪。

对于未来的测试，作者计划包括专业演员作为实验的参与者，认为他们应该能够更准确地模拟所需的情绪。

尽管如此，并且考虑到训练基础的数据集的大小不是很大，作者可以说结果非常好并且令人满意。

5、结论

在本文中，作者提出了一个本体论（Affinto），它定义了情感状态，以及人与系统之间的相互作用。使用这种本体论，可以评估引起某些情绪的情况以及从中产生的刺激或属性。通过这种方式，可以创建用于自动识别人类情绪的模式，并通过适当的响应来激励用户。

此外，Affinto对情感交互的描述使得为多个领域（如电子教育，远程医疗等）开发情感计算应用程序的平台成为可能[6]和[8]。反过来，本体已成为情感多模态会话系统（AFFIN）的知识库。

一些用户参与了该研究以验证该系统。其主要目的是通过AFFIN指导的对话和显示的图像分析参与者引起的情感反应，以诱发情绪。为了分析这些反应，系统从参与者的声音中提取副语言参数，并从他们的消息中提取语言信息。以这种方式，系统执行识别过程并获得对象的情感状态的估计。实验结果表明，识别系统获得的值与参与者指示的值之间存在正相关关系。必须强调的是，本文的主要目标不是提供一个能够在与用户交谈时识别人类情感的精确系统，而是提供一个充当知识库的本体论，并基于此本体论，提供一个平台。作为开发情感计算系统的指南。

由于使用基于本体的方法，其他智能代理也可以通过将其用作信息库或以语义方式检索信息来访问存储在Affinto本体中的信息。此外，基于Affinto的平台还可以作为其他情感资源和/或应用程序开发的指南。

而且，本体和平台都是模块化的。在这种情况下，已经开发了文本和语音模式，但也可以包括其他模态。作者目前正在研究生理信号（如GSR，ECG或EMG）的分析[44]，以便检测行为模式并根据这些信号识别情绪。创建这些模式后，作者将能够在Affinto中包含这些生理信号的特征，并将它们与其他通信方式相结合。