评估人-自主系统团队通信的方法(2)

本文探讨了11种方法来分析人类-人工智能团队的通信,涵盖动力系统视角、团队动态认知、情绪状态和语言同步。方法论包括团队协作结构分析、社交网络分析、关系事件模型等,以理解信任、凝聚力和绩效。未来研究聚焦于自主系统特性对团队互动的影响、通信方式对合作的影响及跨环境通信模式的发现。
摘要由CSDN通过智能技术生成

2.2 动力系统方法

前四种通信评估方法主要集中于团队互动的结构和时间。其他的方法也可以评估团队的相互作用并强调了团队使用寿命的不同时间尺度。以下两种方法建立在以动力系统理论为基础的观点之上(Abraham and Shaw 1992;Gormanetal. 2017)。

2.2.1 团队的分布式动态认知方法

互动团队认知理论(ITC;Cooke 2015;Cooke et al. 2013)建议团队认知最好是在团队层面来衡量的分析团队组件之间的交互作用,包括人类和非人类实体。团队交互与团队组成、任务背景、交互模式和时间尺度。传统的人-自主系统团队研究集中在涉及一个人和一个IA的二元关系上。然而,在许多现实世界的应用程序中,团队组件不仅包括一个终端用户和一个IA,还有多个终端用户,甚至其他利益相关者(例如,经理和工程师;Ho et al. 2017)以及具有相似或不同角色的多个IA。这些个体和实体之间的通信影响人和人的关系和人和IA的关系。此外,随着IA的进展,通信跨越长时间框架从概念和原型开发、测试和培训、部署到退役。大多数文献只涵盖了概念和原型开发的阶段(Hancock et al. 2011;Hoff and Bashir 2015;Lee and See 2004;Schaefer et al. 2016)没有考虑IA生命周期的阶段,IA的技术准备,组织的接受,以及利益相关者与IA之间的互动背景都各不相同。

由于这些问题可能会影响关于人-自主系统通信的研究结果的通用性和边界,因此强烈建议在研究中考虑IA的阶段、团队组成、互动模式和互动持续时间因素。另外,团队认知的分布式动态方法旨在从整体的角度考察通信,重点是分布式动态团队认知。每个利益相关者的认知能力(例如,对IA的信任不仅会影响自己的表现;它还可能影响其他利益相关者对IA的认知,甚至影响利益相关者对其他利益相关者的态度分享(或不分享)相似的认知能力。人际认知与人的自主认知相互影响(Huang et al. 2020a)。为了理解利益相关者和IA之间的这些相互关联的关系,研究在不同阶段的团队认知是至关重要的。

这种分布式和动态的团队认知方法是可定制的,只要定义了模型组件的阈值,就提供了团队有效性的整体观点。它也可以用于确定人-自主系统团队中问题的来源,因为该方法研究了网络中的团队组成、交互模式和相互依赖性。问题的来源可以是一名船员或IA,并且可以与利益相关者的特征或他们在人-自主系统团队中的功能任务有关。例如,一个问题可能涉及到使用IA的信任问题;这可能是由船员之间的人际关系,或可能值得注意的特定任务互动引起的。个人的交互类型和数据可能会对这些问题的不同方面作出贡献。例如,语音内容类型和流模式可能表明信任的人际关系方面。增加操作持续时间和错误率可能会指向基于结果的信任问题。

团队认知的分布式动态方法评估了人类-IA团队中的通信,同时考虑了三个方面:(1)IA生命周期的阶段,(2)团队中多个利益相关者和IA,(3)个人和实体之间的任务和交互作用的特征。这种方法大约有五个步骤(Huang et al. 2020a):

步骤1:确定感兴趣的领域和感兴趣的主题确定关于人类合作的感兴趣的领域是很重要的,因为背景有许多假设和规则。其中一个例子来自军事背景,下一代作战车辆(NGCV)交叉功能团队(CFT),它设想有人驾驶和自动驾驶作战车辆组成一个团队支持各单位的杀伤力,并提高各单位的安全性。通过确定感兴趣的领域,感兴趣的主题(例如,团队信任、情况意识、工作量、一致性和凝聚力)将缩小相关文献的范围,并随后告知哪些发现需要复制和填补哪些空白。文献在其发现中显示出了局限性人际团队信任和人类自主信任,如缺乏对阶段的考虑、团队组件的覆盖范围和动态措施。

步骤2:确定利益相关者和相关的人工实体本步骤定义了团队及其组件的大小。团队规模和组件的分析水平将决定类型人类团队中包含的任务和交互。与赞助商的通信可能有助于确定优先利益。与主题专家的访谈被用来识别他是所选团队级别的相关人员和关键人员。例如,Ho et al 的(2017)工作说明了一个多利益相关者的例子,包括最终用户(即,飞行员)、工程师(即,开发人员,以及管理人员(即,培训师和高层决策者)。

步骤3:通过团队中的每个领域,分析个人和实体之间的通信模式和互动在进一步将团队信任的子主题定义为一种现象后,将帮助团队实现其目标的独立的团队成员,需要为每种类型的利益相关者检查相互依赖的功能任务。相互依赖性和相互作用的分析将与交流模式进行交互分类(Huanget al. 2020a, b, c):(a)语言交流——通过访谈、短信、电子邮件、技术,生成口头和文本自然语言临床测试报告、无线电通信、有记录的日常对话、内部论坛帖子等;(b)视觉互动,凝视模式;(c)物理交互,按钮,动手轮,触觉力,等等。通信模式取决于时间框架、利益相关者的类型及其任务。基于通信方式和交互分类法,收集可访问的交互数据,并分析每种类型的数据以交叉验证研究结果(Huang et al. 2020b)。建议使用这种多方法的方法,因为这些方法捕获了不同的复杂的团队认知方面,并在给定的背景下提供一个更完整的主题图片。例如,三层的信任(即,性格信任,学习的信任,和位置信任;需要不同类型的数据以最好地适合每个结构。选择合适的数据和分析方法取决于文献资料和可访问性在给定的背景中的数据。采用经验数据比较,在这方面提供进一步指导(Huang et al. 2020b)。

人-自主系统团队操作期间语言交流的评估应考虑交互的要素(有关相关交互分类,见Huanget al. 2020a, b, c)。使用这个分类、通信内容主题和频率可以进行编码,以表明利益相关者是否信任团队中的其他个人和实体。有两种方法对语言数据进行定量和系统的编码:语言编码流(Geisler Swarts 2019;Huang et al. 2020a)和结构主题建模(Lee and Kolodge 2018)。一种用于分布式动态方法的特定码本正在开发中,以确定下一代作战车辆背景下通信主题、频率和跨阶段变化的类型,并将结果与两种编码方法进行比较。

步骤4:在网络中绘制团队分析图在选定的期间内绘制网络通信数据中的团队分析,应将选定期间内的通信数据聚合并绘制为一个信任网络,使用节点来表示所涉及的团队组件和链接来表示信任关系。经理、培训师和工程师对IA的信任对最终用户对IA的信任的影响可以在网络上被注意到,这种影响可以说明更高的、超出最终用户和IA之间的二元关系的级别影响因素。

步骤5:分析动态时间线上的信任网络基于通信的信任网络可以沿着IA的生命周期或特定阶段的时间线进行采样和绘制。例如,在概念开发的阶段,数据样本可以从任务的开始阶段、扰动阶段和后扰动阶段(即恢复)阶段进行选择。在我们分析充分之后获取步骤3中所述的交互数据样本,并识别团队认知主题(如信任)、实时通信转录服务(如微软,实时通信转录服务的可靠的交互模式Azure云解决方案和缩放自动转录)可以实现实时检测的信任指标。比较不同阶段的信任网络,我们可以比较和对比团队信任在这些阶段处于状态,然后确定干预策略。

团队信任是将这种分布式和动态的团队认知方法应用于人机交互团队的一个例子(Huang et al. 2020a)。可以自定义进程以解决替代构造。对于团队凝聚力,这些步骤将被修改为基于文献定义团队凝聚力,确定团队级别,识别与凝聚力相关的利益相关者和相关的人工实体,分析利益相关者相互依赖的任务及其交互类型和频率,为交互开发团队凝聚力代码本。最后在时间轴上向他们展示一个凝聚网络。

除了团队信任之外,团队态势感知、团队工作量和团队弹性等主题对该模型至关重要。团队态势感知可能关注于在交互中成功使用关键信息。团队工作量可能反映在他们的响应时间或与队友的沟通内容上。团队弹性可以理解为团队的哪部分无法执行必要的交互来应对干扰,导致整个团队失败,或团队哪部分通过交互填充额外的功能,以完成另一个团队组件的功能使整个团队成功。关键是识别主题的基本特征,并通过通信数据和模式对其进行操作。此方法可以通过以下步骤应用于不同的团队。

这种方法目前的一个局限性是缺乏为感兴趣的主题建立的交互模式数据库。此外,任务分析和交互分析也是在实验室中进行的或者密集地用于识别通信模式及其与目标变量的关系。有三种潜在的方法可以克服这些限制。第一,应该通过更多的实证研究来研究可改进的通信模式标准及其与目标团队变量的联系,以便未来的研究更容易使用模式选项,并将其应用到其他背景中的其他主题。其次,应该识别无背景的通信模式。例如,在不同场景下的通信持续时间可以通过一种叫做LENA技术的谈话计步计来测量,它最初是用来测量儿童不处理内容的谈话量(Wang et al. 2017;Odean et al. 2015)。无背景的措施可以减少分析所有通信内容所需的工作量。在过去的十年里,研究人员一直在使用动力学技术来分析模式无内容的社会科学数据(Amazzen 2018;Gorman et al. 2010)。动力学分析技术允许分析许多传统调查和统计数据无法分析的交互数据类型。例如,阻尼模型可以描述患者疼痛估计精度的提高(Finan et al. 2010),并可适用于用户改进信任校准。最后,自动转录技术、实时数据分析和自动数据可视化可能会进一步提高研究人员和从业者的效率。

2.2.2 量化探索性通信量

本节扩展了使用动态系统方法,提供了量化团队如何找到协调的新方法和通信。虽然行为可能“利用”以前有效的解决方案,但行为也可能“探索”可能有效的解决方案。勘探和开发的权衡已经有了已经研究了几个领域,包括机器学习(Kaelbling et al. 1996),动物觅食(Cook et al. 2013),和认知系统(Hills et al. 2015)。例如,Rolf et al.(2011)的研究表明,婴儿有效的运动学习可以通过将探索性运动视为目标导向的,而不是随机的来解释。他们的关键见解是来自探索的反馈可以被迅速利用来进一步接近目标运动。团队交流也可以被认为是在探索和开发,其中新的协调的方法是通过不同的通信来实现共享的目标。因此,这种方法侧重于量化新颖的或探索性的交流,以确定人-自治系统团队中的那些模式。虽然探索性沟通还没有明确定义,但在文献中有许多关于探索的定义,其中探索性沟通可以定义为具有集体互动历史特有属性的沟通(Hills et al. 2015)。

新成立的人-自主系统团队必须学会合作,这意味着确定对那个团队有效的通信方式。这个过程包括探索通信,以发展信任和凝聚力,并完成团队级别的目标。例如,人类队友可以向智能代理的命令或查询更多信息。通过探索与该代理的通信,人类队友可以了解该代理的边界以获得适当的依赖。相反,如果一个队友在探索,而这种探索被认为是一个通信错误,那么就信任那个团队的可能会减少。相反地,如果一个队友进行探索,而这种探索被认为是一种沟通错误,那么对他的信任就会下降。有意一起探索的队友,可能通过吸引子重建(例如,Gorman et al. 2010)表明,也可能更有凝聚力,而更不稳定的探索可能表明缺乏凝聚力。最后,因为探索通常是出于满足共享目标的目的,所以模式通常应该与任务的新颖性相一致。一个高效的团队可能会学习适当的通信过程,以更快地实现这些目标。与有效学习相关的通信模式很可能是非线性的,因此非线性动态系统方法是合适的。

因为团队可能需要以新的方式进行通信,以适应新颖的或具有挑战性的环境,所以探索性的通信可能直接表明了团队层面的适应和弹性。有证据表明,具有“亚稳态”的协调,或在稳定和不稳定模式之间轻松转移的协调,在面对障碍时是高度适应。本节中描述的第一种方法将变异性视为探索的索引,一般可用于衡量团队通信模式的灵活性,然而第二种方法具体地解决了探索的模式。

非线性动力系统分析假设,随着时间的推移,事件是从一个一次只能处于一个状态的动力系统中采样。因此,通信应该随着时间的推移进行测量,并根据需要进行插值,以产生具有一致采样率(例如,100Hz)和一组确定的可能状态的时间序列。相空间,或一组可能的轨迹如果测量的通信不是一个连续的数字变量,则需要构造通信。这可以通过将信号分解为一组维度和对应的状态来实现连接到每个可能的组合。因为探索性通信通常指的是目标导向的通信可变性,所以必须衡量的通信方面是与任务或感兴趣的变量最为相关。虽然这些可以特定于任务,但一些示例包括通信流、通信方式、当前任务和通信内容。备注:注意诸如通信内容的可能维度集可能需要压缩成更易于处理的单元,例如所传达的信息或主题。有关此过程的详细示例应用于团队通信数据,见Gorman et al.(2019)。

接下来,可以通过使用吸引子重建来捕获团队的行为。吸引器重建包括首先估计时间序列中的一组相关事件的长度,tau由与序列相关性最小的第一个时间点或通过计算该序列的平均相互信息来表示。然后,嵌入维数必须是学期的通过识别相空间中最小化假最近邻百分比的维数来创造的。如果嵌入维数小于或等于3,则相空间可以被绘制和可视化。吸引器重建后通常是计算最大的李亚普诺夫指数来确定稳定性和递归量化分析来描述团队整体协调模式的可预测性,表示为复发率和决定性的百分比。除了吸引子重建,其他几种描述时间序列内的多样性(Amazeen 2018),其中许多在人-自主系统团队的背景下显示出希望。

另一种方法是使用定性编码来识别探索性通信。对于这种方法,确定什么到底是探索性的是至关重要的。在受控制的前兵团中,团队通常是由彼此不认识的人组成的,即使是熟悉的团队也可能缺乏共同完成特定任务的花费的经验。因此,可以有把握地假设初始团队通信在某些实验背景中是探索性的。对于执行熟悉任务的经验丰富的团队(例如,一起训练的军事小组),可能需要对团队的日常沟通实践进行一些调查,以确定已经探讨过的通信范围。一种方法可能是假设一个训练有素的团队熟悉预定义的基本协调和将非必要的协调视为解释的。一旦数据被编码并转换成一组,在相关状态下,可以应用动力学方法。不同的是,在第一种方法和这种方法之间,这种方法将探索性通信作为信号本身进行操作,而不是一个整体通信信号的变异性。

参考系对于理解通信动力学分析是至关重要的。虽然通信模式可能与另一种模式不同(即或多或少稳定),但该信息可以不说明哪种模式更适合特定的任务,或者更好地适合改进与团队效率相关的变量。从这个意义上说,动力学方法是描述斑块的考虑到随着时间的通信差异,传统的静态措施不考虑,但必须发展信任和凝聚力等变量之间的联系必须发展和有效在团队合作的背景中有坚实的基础。所有的团队都很可能表现出探索性的交流,尤其是当他们不熟悉的时候。然而,探索性的交流是必要的,要由使用的通信模式(如自然语言)提供的冗余和自由度以及协调可能产生的冗余和团队相互依赖度通用电气公司。因此,该方法最适合于动态和复杂的任务,其中有许多可能的解决方案来实现团队级的目标。团队合作的环境应该包含足够的内容变异来激发对队友行为的探索,而这种变化应该在团队层面而不是个人层面产生影响。

有一些证据表明,不同的训练制度,如限制团队协调的扰动训练(Gorman et al. 2010),可以促进探索和适应绩效。附加研究表明,保留间隔后混合团队组合有类似影响(Gorman and Cooke 2011)。一般来说,使团队合作的限制多样化可能是这是准备团队应对意外情况的一个关键组成部分,因为它会影响团队协调的发展方式。需要更多的开发,以更广泛地了解与团队效率相关的探索性通信模式,以及如何通过工作系统设计来实例化这些模式。

值得注意的是,IA并没有像人类一样的方式探索交流,这可能会影响人-自主系统团队更严格地协调(Demir et al. 2018)。在短期内,智能代理不太可能能够以目标导向的方式来探索通信。他们通常会依赖固定的编程或训练数据来在团队中进行协调。未来的智能代理可能会有机器学习能力,允许他们的交流随着时间的推移而发展。测量与这些代理的团队中的探索性通信可能有助于评估这些算法的性能。考虑到在探索性通信建模方面的进展,机器学习功能可能会受益于扩展探索和开发的权衡到智能代理队友的通信行为。

2.3 情绪状态

前面的评估方法都关注团队沟通事件的顺序和交互模式。这些方法依赖于保存团队通信事件序列的数据,如转录的音频、文本或聊天日志,或事件日志,如从模拟器系统导出的日志。然而,其他的评估方法可以利用团队互动的特性来提供对团队状态的洞察,比如信任或凝聚力。下一节描述了使用面部特征执行情感特征处理的方法,接着描述了使用声音特征检测情感状态的方法。

2.3.1 面部表情分析

情绪最强烈的指标之一是人的脸。我们可以根据眼睛、眉毛、眼睑、鼻孔和嘴唇等关键面部特征的变化来解读他人的情绪。人脸包括40多块结构和功能上独立的肌肉,每一块肌肉都可以彼此独立地触发(但同样由一条神经支配,因此称为面神经)。面神经从脑干深处冒出来,像树一样分支到所有肌肉。在这里,面部肌肉活动是高度专业化的表达,它允许我们与他人分享社会信息,并进行口头和非口头上的交流。面部表情只是人类情感的众多指标之一,但可能是最明显的。人类可以产生成千上万的变异;然而,只有一小部分不同的面部结构与特定的情绪有关,无论性别、年龄、文化背景和社会化历史(在一定程度上)。这些是快乐、愤怒、惊讶、恐惧、蔑视、悲伤和厌恶。

基于计算机的面部表情分析试图模仿人类的编码技能,因为它捕捉到原始的、未经过滤的对任何类型的情感内容的情感反应。因此,情感特征处理涉及从面部的特定特征(例如,揭示普遍情感变化的面部的特定运动)中检测人类的情感状态。面部表情与评价和应对机制以及压力、疲劳和信任有关。过去的研究发现,面部表情的自动计算可与情感表情的手动注释相比较(Neubauer et al. 2017),并已用于许多临床和实验研究(DeVault et al. 2014;Scherer et al. 2016;Venek et al. 2016;Parra et al. 2017;Batrinca et al. 2013;Chollet et al. 2015)。因此,该平台提供的证据表明,自动行为跟踪系统能够支持临床评估,并为研究人员提供急需的压力、信任、甚至团队凝聚力等行为指标的客观评估,尽管迄今为止,对这些可能性的研究大多是探索性的。然而,我们预期面部表情测量将为其他相关的行为和生理测量提供支持,这些测量表明情绪状态、信任或团队凝聚力的变化,如沟通指标、皮肤电活动(EDA)或心率变异性(HRV)。

面部表情有三种不同的评估方法。首先,面部肌电图(fEMG)跟踪记录了皮肤表面附着电极的面部肌肉的活动。面部肌电图检测并放大收缩时各肌纤维产生的电脉冲。例如,皱眉肌(如眉皱肌)是靠近眉毛的一种小而窄的锥体肌,通常与皱眉有关。皱眉器将眉毛向下拉向脸部中心,产生额头的垂直皱纹。这一肌肉群是积极的,以防止高太阳眩光或表达负面情绪,如痛苦。此外,颧骨是一块肌肉,从每个颧骨延伸到嘴角,并将嘴角向上和向外拉,通常与微笑有关。因此,当面部表情很明显时,运动产生的相关电脉冲也很明显。

第二种方法是使用面部动作编码系统(FACS)对面部活动进行实时观察和人工编码。面部动作编码系统代表了一个基于解剖学特征的面部表情标准化分类系统,供人类编码专家使用。编码人员检查个人面部的视频,并将任何面部表情描述为被称为动作单元(AUs)的基本成分的组合。每个动作单元对应于一个单独的面部肌肉或肌肉群,并由一个数字(AU1、AU2等)标识。所有的面部表情都可以分解成它们的组成成分。打个比方,面部表情可以比喻成“单词”,而AU则是组成这些单词的“字母”。表2说明了可以计算哪些动作单元来揭示普遍情绪的变化。例如,普遍情绪“愤怒”是由来自澳大利亚4号、5号、7号和23号的肌肉动作组成的,这些证据可以在单独的数据框架内进行平均,以揭示特定情绪的总体证据。

 

表2基于单AUs的面部表情情感计算(Ekman andFriesen 1978)

 

情绪分类

构成情感的动作单位

愤怒

藐视

厌恶

恐惧

幸福

悲伤

惊喜

4+5+7+23

R12A+R14A

9+15+16

1+2+4+5+7+20+26

6+12

1+4+15

1+2+5B+26

第三种方法(也是最快的方法)利用计算机视觉算法自动检测人脸,并利用特征检测来检测面部标志,如眼睛和眼角、眉毛、嘴角和鼻尖。通过特征检测,调整内部人脸模型的位置、大小和比例,使其与被调查者的真实人脸相匹配,就像在被调查者的脸上放置一个不可见的虚拟网格一样。每当被调查者的脸移动或改变表情时,脸模型就会适应并跟随。特征分类然后将具有里程碑意义的面部特征转化为动作单元代码、情感状态和其他情感度量。

个人的面部表情可以通过几个开源或付费软件许可证自动量化。例如,一些商业软件(如iMotion的Facet)提供了一帧一帧地自动提取愤怒、悲伤、喜悦和蔑视等情绪。此外,OpenFace软件平台(Baltrušaitis et al. 2018)提供了对单一行动单位(AU)证据的自动评估,然后可以在上述FACS计算之后使用这些证据来计算普遍情绪(Ekman and Friesen 1978)。这两种技术广泛应用于情感计算领域;但是,它们需要离线分析(即在他们从事一项任务之后,才会处理个人面部的视频)。因此,还有其他技术可以对面部表情进行实时分析(例如,面部表情技术)。对于所有软件系统,当参与者参与感兴趣的任务(如团队协调任务)时,应通过嵌入其显示器或安装在计算机屏幕上的网络摄像头连续记录其面部表情。我们注意到,到目前为止讨论的软件包并不意味着详尽无遗,而只是提供了可用于这些分析的软件示例。

有许多衡量运营商状态的指标,通常包括问卷评估;然而,这些都是在操作员执行任务后采取的,要求他们记住在给定时刻的感受,并可能反映主观偏见。此外,单峰数据流可能无法准确捕获情感状态或决策的所有方面。在这种情况下,IA不仅要准确地感知人类的情感状态,还要做出适当的反应,以避免在合作过程中误解社会线索,从而提高决策和绩效(Scheutz et al. 2006)。大多数已发表的关于操作员状态检测的计算机视觉方法的研究都集中在疲劳评估上,并且通常依赖于眼睛跟踪和头部运动的分析(Dong et al. 2011;Gu and Ji 2004;Zhang and Zhang 2006)。相比之下,团队凝聚力与面部表情之间的关系还没有得到深入的研究。因此,我们假设这些测量情绪反应的方法将为理解基于情感的信任和团队凝聚力提供更直接的见解。这一研究领域是至关重要的,因为如果人-自主系统团队要取得成功,就必须开发出能够在我们与其互动时可以强烈感知和回应我们情感的自主系统(Bartlett et al. 2004)。

通过大量文献回顾,我们发现影响人-自主系统团队的信任有六种类型:信任倾向、信任、基于情感的信任、基于认知的信任、情境信任和学习信任(Schaefer et al. 2020)。面部数据评估提供了一种额外的方法来评估团队中基于情感的信任。基于情感的信任是个体对自主系统动机做出归因的一种新兴态度状态(McAllister 1995;Burke et al. 2007)。使用这些特征的分析对人-自主系统团队可能很重要,因为这些数据(例如,情绪、身体姿势和面部表情)可以提供对行为模式的洞察,这些行为模式与从属关系、同理心和团队成员可信度的评估有关。

人-自主系统团队合作是一个有趣的案例,因为人类团队可能通过情感表达的变化进行非语言交流(即,不断从我们的合作伙伴的脸上寻找信息)。例如,如果一个人对自己做出或需要做出的某个决定感到担忧,他们可能会从伴侣的非语言特征中寻求确认或替代解决方案。或者,如果某个负面因素影响了团队的状态,并且一个团队成员做出了适当的反应(例如,某种负面的情感反应),而另一个没有(例如,他们对团队失败微笑),那么信任和最终的凝聚力可能会受到影响。在人-自主系统团队领域内,重要的是要承认,人类可能不会像通常那样从人类同类那里获得非语言反馈。考虑到这样的场景,还需要考虑人工智能体团队的沟通设计。

2.3.2 使用神经网络的人声特征评估

当建立团队信任和凝聚力时,个人情绪调节和对团队中其他人情绪状态的敏感性是有帮助的。大多数人在某种程度上是通过环境中解释面部表情和声音内容来做到这一点的。良好的团队合作通常包括知道什么时候传递信息,以及知道什么时候这些信息由于接收者的状态限制而没有帮助(Lingard et al. 2004)。

尽管语音内容可能有助于检测情感状态,但这通常是通过语音特征来传达的,例如语音相对于中性语音的频谱和时间特征。压力会导致身体内的肌肉收紧,这会延伸到胸部、喉咙、颈部、下巴和声带(Hansen and Patil 2007)。

最近,神经网络模型被证明能够从语音的声学特征中有效地检测情感状态(Casale et al. 2008;Koolagudi and Rao 2012;Stuhlsatz et al. 2011)。这种能力对于由人类和智能代理组成的团队非常有用,因为这允许自适应自主协助应对压力和工作过载。这一功能已经用于客户服务应用,如自动电话服务,以及抑郁症和创伤后应激障碍的精神病诊断(Banerjee et al. 2017;Cannizzaro et al. 2004;Vergyri et al. 2015;Vidrascu and Devillers 2005;Vogt et al. 2008;Yacoub et al. 2003)。

根据团队需求调整自己行为的能力似乎与团队内部的信任和凝聚力相一致,进而也与团队绩效的提高相一致。然而,目前还没有证据表明,提高发现和适应情绪状态行为的能力会提高团队绩效或团队成果。因此,第一步是建立积极情绪状态与其他信任和凝聚力指标之间的相关性。据推测,但也未经证实,积极的情绪状态也会相应地提高团队绩效,相反,表现不佳的团队会有更大的挫折率和消极情绪。未来的目标是确定团队中的人员何时遇到更高的工作负载,以便IA能够实施自适应协助。假设团队信任、凝聚力和绩效(通过其他措施评估)将随着适应性自主辅助工具的实施而提高。因为技术适应的发展超出了这项工作的范围,所以这里的初步目标是简单地建立情绪状态和团队信任和凝聚力之间的相关性。

神经网络模型是通过在一组标记数据上训练模型而得到的,在这种情况下,是从语音中记录的数字听觉数据(例如.wav文件)。通常,第一步是从语音信号中提取声学特征作为输入。这些特征通常包括关于光谱含量、对数能量含量、基音周期的信息,以及关于它们的平均值、最小值和最大值的统计信息。这些特征的衍生物提供了关于特征随时间变化的信息(El Ayadi et al. 2011;Schuller et al. 2003)。然后,算法的任务是估计这些特征相对于结果概率的参数权重,并通过优化这些权重,训练算法将语音输入准确分类为情感状态类别。模型可以使用数学技术进行优化,例如使用隐藏节点、卷积和序列特征(如循环双向网络和长-短记忆)。这使得模型能够结合有关语音的环境信息,根据当前语音内容之前和之后发生的事件调整参数。此类模型所需的处理能力取决于模型,但许多算法可以在标准cpu(计算机处理单元)和gpu(图形处理单元)上实现。实现模型需要访问一组带标签的语音文件,并需要时间进行初始模型训练。实时实现需要使用经过训练的模型、录音能力、能够提取特征的处理能力,以及持续读取正在进行的语音。目前,这类模型能够以70%或更高的比率正确识别4-7种情绪类别。

这种方法已被证明是有效的,并已被用于多种应用,如检测严重抑郁症(Cannizzaro et al. 2004)和交互式语音系统(Yacoub et al. 2003)。然而,该模型的实现仍存在一些技术挑战。首先,是获取和标记用于模型训练的语音记录数据集。尽管存在预标记集,但大多数都很小(BouGhazale and Hansen 2000;Burkhardt et al. 2005;Fiscus et al. 1993;Swain et al. 2018;Ververidis and Kotropoulos 2003;Ververidis and Kotropoulos 2006)。现有的大多数场景都使用“表演”的情感语言(Liu et al. 2018;Voft and Andre 2005)。在现实环境中,大多数语音都是中性的,因此识别异常就成为模型的任务,而很少有异常可以训练。此外,大多数研究都是在安静的环境中进行的,只有少数例外(Huang et al. 2019)。对于应用在人-自主系统团队的该方法的潜在的困难是环境是嘈杂的。最后,大多数模型在检测多种情绪状态方面都有一定的准确性,但它们在区分积极情绪和消极情绪方面最为成功(Casale et al. 2008)。在团队绩效的背景下,这可能足以使IA检测出何时需要提供帮助。

目前正在开发的用于人-自主系统团队的模型是一个卷积递归神经网络模型,它包含了长-短期记忆和注意层。它松散地基于Huang和Narayanan(2017)提出的模型。该模型是在嘈杂的、实地研究的录音上训练的,而不是学习多种情绪状态,只训练识别压力状态。该模型的当前实现已经在称为IEMOCAP数据集的现有语音数据集上进行了训练(Busso et al. 2008)。目前的工作包括开发一个标记的数据集,该数据集来自美国陆军最近的野战研究,该研究在火炮发射任务中使用了僚机人类自主杀伤能力平台(Schaefer et al. 2019a;Schaefer et al. 2019b)。在培训和验证之后,未来的工作将包括开发一个持续运行的模型,用于实时分析团队绩效。

2.4 语言同步

前面两节已经说明了如何利用声音和面部表情的特征来理解团队信任和表现。这些功能可以被实时捕获,因此虽然这些方法还在开发中,但它们作为机会主义的感知指标是非常有希望的。前两种方法依赖于交流的行为方面,而本节描述的方法利用交流的内容来产生洞察力。

在团队中,成员必须对他们的目标、角色和程序形成共识(Klein et al. 2005)。为了建立这种理解,成员必须使用策略来传递和编码相关信息(Wilson and Sperber 2012)。这样,参与谈话的人(说话者)在他们的话语中可能会表现出相似的词汇(即选词)和句法(即句法)属性,这大概是因为更好的词汇和句法对齐可以提高交际效率(Semin 2007)。事实上,许多学者已经研究了说话人之间的语言相似性,揭示了与衔接的正相关(Dong 2005;Heuer et al. 2020)、信任(Scissors et al. 2009)和任务绩效(Dong et al. 2004;Foltz et al. 2003;Fusaroli et al. 2012;Gorman et al. 2003;Richardson et al. 2019;Yilmaz 2016)。在这里,我们概述了在人-团队中产生了一些有希望的结果的方法,包括他们的计算,文献中的相关发现,以及如何调整和改进它们来理解人-自主系统团队中的凝聚力、信任和绩效。这里详细描述的语言同步性度量旨在反映与知识通信和编码相关的不同状态和过程。这里描述了三个度量:语言风格匹配(LSM:Niederhoffer and Pennebaker2002)、潜在语义相似性(LSS:Landauer and Dumais 1997)和会话级别句法相似性度量(Cassim:Boghrati et al. 2018)。

LSM可以看作是一种分析方法,它关注说话者使用无内容词(即,本身没有任何语义的词)的速度。LSM方法假设,当就一个主题进行详细通信时,显性信息会变得繁重,因此,一旦建立了共同点,演讲者往往会省略显性细节,从而产生更高的通信效率(Gonzales et al. 2010)。LSM依赖于对话中虚词的使用比例--说话者之间使用虚词的相似性越大,语言的同步性就越大。虚词包括九个词汇类别:冠词、副词、连词、否定词、非人称代词、人称代词、介词、动词和量词(Gonzales  et al. 2010)。要计算说话者之间的LSM,请使用以下公式:

其中,i表示九个虚词类别中的每一个(见上文),s1和s2表示用于二元比较的每个说话者,而pisn表示说话人使用的类别中虚词的比例。请注意,比例之间的差异是绝对的,LSM表示单词类别之间的未加权平均值,LSM的可能值范围从0(绝对不匹配)到1(完全匹配)。虽然计算本身是简单和直观的,但它依赖于使用参考字典来准确地将每个单词标记为其相关的类别,这已经通过语言查询和单词统计软件包等工具变得容易(LIWC:Pennebaker et al. 2001)。

相反,LSS可以看作是一种分析方法,它关注的是对话的具体细节,说话人话语之间或说话人话语与已知话题之间的语义连贯反映了连贯和共同理解(Landauer and Dumais 1997)。LSS不依赖于预先指定的词类,而是依赖于潜在语义分析的使用(LSA:Landauer et al. 1998)基于它们与其他词的共现来构建词义。首先,对话记录需要在矩阵中格式化,其中每列表示文档(例如,话语),每行表示术语(例如,单词或二元语法),并且每个单元格表示该术语在相应文档中出现的次数。利用该矩阵,LSA采用奇异值分解对矩阵进行降维,这是一种类似于主成分分析的方法。在这个阶段,分析师必须选择要从这个矩阵中提取的主题(或因素)的数量,这可能会受到几个标准的通知,这些标准在这里不会详细讨论;相反,我们让读者参考现有的资源(例如,Evangelopoulos et al. 2012;Landauer et al. 2013)。一旦对原始矩阵执行因式分解,就可以重构原始文档-术语矩阵,用单元格值表示每个术语在语义空间中与每个文档的相关性。这种转变的结果是,可能从未在文档中出现过的术语,由于它们与文档中确实出现的其他术语的关联,将会显示出它们与文档相关。最后,分析者可以通过余弦相似性将术语和文档相互关联-如果文档表示独特的话语,则话语之间的余弦相似性表示它们在语义空间中的一致性,或者它们潜在的语义相似性。因为LSS是基于相关性的,所以值的范围从−1(完全不同步)到1(完全同步)。

第三种方法Cassim可以被视为一种分析方法,它侧重于信息交流的格式(Boghrati et al. 2018)几个报告表明语义和句法信息的处理方式不同(Dapretto and Bookheimer 1999;Hagoort 2003),句法变异对理解有意义(Bock 1982)。下面,我们将介绍这些语言同步性度量的基本方法。CASIM是一个全自动的句法相似性估计过程(Boghrati et al. 2018)。其通过提取成分分析树(例如,见图2)来直接分析句法结构,该成分分析树将句子(S)描述为其子结构:名词短语(NP)、动词短语(VP)和介词短语(PP),这些子结构本身包括特定的词类,例如限定词(DT)、第三人称单数现在动词(VBZ)、名词(NN)和介词(IN)。

 

图2基于成分的语法分析树,显示句子的嵌套结构,包括其每个句法成分

 

用图形表示句子的结构,然后可以将一个句子与其他句子的结构进行比较,这是卡西姆使用编辑距离来实现的,编辑距离是一种算法,它计算将一个句子结构转换为另一个句子结构所需的更改次数-所需的编辑越少,句法结构就越相似。更改可以采用三种可能的形式:插入、删除和重命名。在提取选民分析树并计算出句子之间的编辑距离后,Cassim将距离分数减去1,这样较大的值(1表示最大)表示更大的相似度,而较小的值(0表示最小)表示较低的相似度。如果在整个对话的层面上计算相似度,Cassim使用匈牙利算法来寻找最优的句子配对来计算相似度。

有几种说法关注语言同步是如何在人际间建立信任、凝聚力和表现的。例如,LSM已经与团队中更大的社会支持联系在一起(Heuer et al. 2020)更大的内聚力(Gonzales et al. 2010;Yilmaz 2016)。对语言夹带或说话人之间以类似速度使用相似单词的研究也有证据表明,对高频词的夹带(在计算上类似于LSM:Rahimi,Kumar,Litman,Paletz,&Yu,2017)对应于更好的表现(Friedberg et al. 2012;Nenkova et al. 2008)。同样,LSS也被用来预测积极的社会动态,例如更大的人际注意力(Babcock et al. 2014),以及更好的团队表现(Dong et al. 2004;Foltz et al. 2003;Gorman et al. 2003;Martin and Foltz 2004)。虽然Cassim还没有被评估为团队绩效的预测因子,但初步结果表明它有能力区分相关和不相关的文本反应(Boghrati et al. 2018),下属将调整句法以适应上级(Boghrati and Dehgani 2018)。

虽然这些语言同步度量通常被用来理解二元通信,但研究人员也将这些方法应用于多方对话,他们通过平均团队通信的二元贡献来实现这一点(Litman et al. 2016;Rahimi et al. 2017),或将每个成员作为一个整体进行比较(Gonzales et al. 2010)。关于使用这些度量标准,在团队规模、结构或组成方面没有已知的限制;然而,研究人员在解释这些语言同步度量标准的含义和相关性时,应该警惕他们自己的研究设计的限制。例如,分析可以跨团队进行,可以跨团队成员进行,也可以随时间推移在成员内部进行。这种灵活性将根据感兴趣的维度和任何可用的上下文信息(例如,角色、层次结构、任务约束)产生几个不同的模型。作为一个具体的例子,(Yu et al. 2019)使用LSM解释了团队成员在合作棋盘游戏中自我报告经历冲突的程度的变化,结果表明,经历了较大LSM程度变化的团队自我报告的冲突也较少。相比之下,(Gonzales et al. 2010)使用静态的LSM测量,而不是整个任务中LSM的变化,来表征团队协调任务期间的通信,结果表明LSM越高的团队在任务中表现得越好。这些例子说明了与这些相同的底层语言同步性度量的其他用法相比,特别是在考虑这些度量如何被合并到更大的因果模型中时,有一点不同。

除了可以灵活地分析这些度量标准之外,在理解团队流程中语言同步的重要性方面也存在不一致之处。例如,一些学者已经发现,较大的LSM与较差的性能相关(Heuer et al. 2020),与绩效完全无关(Munson et al. 2014),而且它与表现的联系受到其他团队特征的调节(Gonzales et al. 2010;Yilmaz 2016)。目前,很难就语言同步在团队表现中的作用得出强有力的结论,因为使用同样的方法收集和分析数据获得的证据很少。然而,自动转录技术正在变得更好和更广泛地使用,从而减轻了分析自然交流数据的负担。因此,大量来自团队研究的通信数据将有助于阐明语言同步与团队绩效之间的关系。

在人-自主系统团队中,这些方法的适用性将取决于IA的角色,IA可以采取两种形式:作为通信观察者和作为通信参与者。观察自治权将准备好实时评估语言相似性,并向既得利益者提供反馈。然而,参与自治需要更复杂的能力,例如了解这些语言特征如何与团队流程和外部环境相对应,或者了解如何产生自然语言以使词汇、语义和句法特征在不同实体之间具有可比性。对自然语言的依赖是LSM和CASIM所特有的,LSM依赖于将单词与特定词典相匹配,而CASIM似乎只对通道内的句法(例如,自然语言与自然语言)进行比较是合理的。另一方面,LSS依赖于通用定义的“术语”和“文档”之间的关联,使其易于理解行为的语义相关性(Chen et al. 2019;Nieble et al. 2008),这可能包括任何非语言交流。

随着我们捕获准确的实时通信数据的能力变得更加可靠,收集大量人-自主系统团队通信数据的语料库将使我们能够对这些度量进行更严格的测试。即使以我们目前的分析能力,评估完全准确的转录和全自动语音识别转录之间的性能差异也是值得的;事实上,早期研究表明,当使用具有57%错误率的自动转录时,预测性能仅降低10%(Foltz et al. 2006)。

随着更有能力的对话代理的开发,这些度量可以向自主提供有关如何积极参与接地过程的信息。为了实现这一目标,自主学习必须能够结合文字记录之外的信息,比如人们在寻找什么(Altmann and Kama 2007;Knoeferle and Kreysa 2012;Staudte et al. 2014)或打手势(Beilock and Goldin-Meadow 2010;Galati and Brennan 2014;Goodwin 1986)。要让自主充分参与,它还必须有能力学会使自己的通信适应人类队友,以确保双向人类自主通信的最佳效率和效力(Marathe et al. 2018)。重要的是,自主性也必须明白什么时候相似性是一个合适的指标;例如,学者们开始探索超越同步性的联合行动动态,如互补性(Dale et al. 2013)和异步(Wallottal 2016)。在自主发展这些参与及时、透明和社会动态通信的能力(团队成员试图建立共同点和实现共同目标的产物)之前,分析团队中的人际通信将使我们能够推动人-自主系统团队向前发展。

 

3 讨论

人-自主系统军事团队需要利用人类团队的灵活、适应性交互特性,在动态的未来战场上保持决定性的优势。有了更有效的通信评估工具和更多的数据集可供借鉴,人-自主系统团队通信的前景将更为清晰,从而更好地理解在各种情况下定义有效团队和团队合作的指标或模式。以下各节将综合本文中提供的关键信息。首先,我们对各种方法进行比较,以支持为给定场景选择最佳方法。然后,我们将整个手稿中提供的未来研究方向提炼为四个关键领域,以供进一步研究。

3.1 比较和选择方法

为给定情景选择最合适的方法将取决于情景的特点和研究人员可用的资源。为此,表3比较了每种方法的特点、数据/资源需求和限制,以及实施每种方法的各种考虑因素。所需数据描述了实施该方法所需的数据类型。最小样本量提供了应收集和分析的最小数据量的一般估计,以使用每种方法得出有用的见解。我们注意到,这些估计数旨在为读者提供每种方法要求的总体思路;特定情况可能需要其他要求。同样,团队规模为读者提供了适合每种方法的团队规模的估计。所需资源概述了与该方法相关或对该方法必不可少的软件或硬件程序包。如适用所需的固化或预处理描述了在将所收集的数据用于分析之前必须对其进行的任何处理。约束/限制提供了对特定于方法的、可能与其应用相关的任何约束或限制的洞察。实施方法的注意事项提供了与使用该方法有关的其他杂项信息。

每种方法的相对优势指导它们在某些情况下的选择和应用。对于至少包含有关通信消息的发送者,接收者和时间戳记的信息的数据集,几种评估方法很有用:聚合通信流,社交网络分析和关系事件模型。即使没有消息时间戳也可以使用聚合的通信流和社交网络分析,但是由于此原因,与可以利用交互计时进行更深入分析的方法相比,它们提供的细微差别数据更少。如果发件人,收件人,时间戳和消息内容均可用,则可以对预期信息推送和探索性通信进行分析,因为他们依赖于团队通信内容所提供的其他上下文来得出结论。此外,尽管社交网络分析并不严格要求消息内容,但它可以提高使用该方法可能进行的分析的广度。

随着时间的推移,理解团队动态通常很重要:团队如何从一种交互变为另一种交互,给定方案如何影响他们的协调,在整个任务过程中他们如何适应其行为和交互等等。几种方法将重点放在这种动态性和按时间顺序进行的交互上。在仅可以利用发送者,接收者和时间戳的分析中,关系事件建模特别适合提供这种见解。如果有更多数据类型可用,例如消息内容,自我报告数据,甚至访谈或系统日志,则团队认知的分布式动态方法和量化探索性交流的方法将成为评估随时间推移的交流交互模式的高度有用的方法。这两种方法都植根于动态系统分析,为深入了解团队动态和深入认知提供了理论基础。

对于仅一种数据类型可用(或对于捕获而言可行)的方案,语音,面部表情和语言同步方法特别有用。只要有音频流或录音可供处理,就可以执行人声特征评估。面部表情分析最少地依赖于视频记录,因此在至少有一个摄像头可以指向机组人员的情况下,可以实施此方法,并且更多摄像机用于更多机组人员可以扩展该功能。语言同步方法都使用文本数据,因此,如果给定涉及通过聊天系统进行团队交互的场景,则这些方法特别有用。语音交互可以被转录为文本,因此,即使仅有的可用数据涉及录音,也可以实现这些方法。准确地转录录音通常会耗费大量时间,但是如果可以做到,那么语言同步方法对通讯内容的依赖可以帮助您深入了解团队的词汇,话语和句法结构用法。

表3方法及其特征之间的比较

方法:结构分析

所需数据

最小样本量

团队规模

所需资源

所需的固化或预处理

约束/局限

实施方法的注意事项

聚合通信流

每个通讯事件的发送者和接收者

大约15次互动乘以团队成员数量

通常不超过5个;可能会有更大的团队,但最终的流程图变得更加复杂

参见脚注1。制图/设计软件以生成流程图(例如,R包“igraph”2,Power Point等)

如果使用记录或观察,则必须对它们进行编码以识别每个通信事件的发送者/接收者

数据是聚合的,因此不考虑特定交互的时间顺序。 因此,比更多分析方法的细微差别

流程图提供了有关团队通信方式的快速,易于理解的摘要信息

社交网络分析

每个交互事件的发送者和接收者; 时间戳和消息内容是可选的,但建议使用。或者,网络成员可以在网络中自我报告联系。

大约15次互动是团队成员人数的乘积。网络关系的自我报告应依赖于每个团队成员的调查。

通常为5个或更多;更大的团队可以使用更多的分析技术

R包,例如“igraph”2或“ sna”3,1

如果使用记录或观察,则必须对它们进行编码以识别每个交互事件的发送者/接收者

数据是聚合的,因此不考虑特定交互的时间顺序。 在现实世界的团队环境中,清楚地描述消息收件人可能是具有挑战性的,并且可能会影响输出

与流程图相比,可以进行更细微的分析。 可以应用于任何定向交互,包括通信,资源分配,角色/任务分配等。

关系事件模型

每个交互事件的发送者和接收者。时间可能是准确的(A-B发生在时间X,B-C发生在时间Y)或顺序的(A-B首先发生,B-C随后发生...)

大约30次互动,多达数千次。

至少3,最多几百

R包“relevent”4识别互动发生时间的能力1

如果使用记录或观察,则必须对它们进行编码以识别每个交互事件的发送者/接收者

n越大,模型的计算速度越慢;一些模型用语假设个人对正在进行的互动的意识(对于有许多参与者的情况可能不可行)

可以灵活地应用于任何定向交互,包括通信,资源分配,角色/任务分配等。

预期信息推送(AIP)

文字数据;自我报告

大约15次互动乘以团队成员数量

至少2

建议使用可将正则表达式(例如Excel或R)用于搜索交互内容的工具1

交互内容可能需要至少部分地进行翻译,然后进行编码以确定请求和信息交换。

用非结构化自然语言来拟合有关信息请求和系统代码本的假设可能会很复杂,尤其是在隐含请求的情况下。

用户应考虑使用AIP的上下文,何时可能由于预期而发生推送以及何时其他约束条件(例如接口)限制了推送或拉取的可能性。

方法:动态系统团队认知的分布式动态方法

各种各样的通信和交互数据类型,包括任务期限内的相关系统日志以及后续采访

取决于交互数据类型和任务上下文:可以从一个团队在一项任务上的交互开始,并以此为基础

至少3个具有不同角色的成员,最多数百个。大小取决于感兴趣的人群

访问通讯数据;Word,Excel,SPSS; 缩放记录和自动转录以进行采访

识别并清理可访问的数据类型,并为数据开发一个密码本

输出格式取决于团队认知主题和可访问的相关数据。

适合多利益相关方团队的认知探索。 建立的模式可用于受控的随访研究

探索性通信分析

每个事件的发送者,接收者,消息内容和时间戳; 带有时间戳的任何其他相关通信维度

根据用于分析的数据类型而有所不同;汇总通信至少需要每个队友15次交互,并且时间序列分析可能需要更多事件或更多时间。

至少需要一个二元组。尽管这可能会影响分析方法(例如,结构系统与动态系统),但可能会有非常庞大的团队

Matlab或R。建议Matlab使用“计量经济学”5。R1建议使用“entropy”6和“tidyverse”7软件包

需要对发送者,接收者,时间戳和顺序进行适当的格式化。 必须编纂探索性通信8

需要团队中相当完整的历史记录或与先前通信的知识。 当交互数据仅由名义任务组成时,它们的意义就不那么明显了。

量化团队过程和适应过程中的演变的灵活方法。 探索的有效水平可能会根据具体情况而有所不同。

方法:情绪状态面部表情分析

面部肌电图,实时观察或计算机视觉算法

没有最低要求。可以逐帧分析每个人的面部表情,但建议采样率至少为每秒50帧

可以单独使用,也可以与任何规模的团队一起使用,只要单独记录每个相关团队成员的脸部即可

可以检测并记录个人整个面部的任何类型的网络摄像头或摄像机。 还需要适当的照明以确保检测到面部特征

无需预处理。可以使用各种软件工具来逐帧地批量处理视频文件

个体差异因素可能会使个体表现出或多或少的表现力。 因此,应采取基准措施,并对从基准到任务的个体变化进行分析。

此方法应与其他状态或影响量度(例如主观或生理量度)交叉引用结果一起使用

使用神经网络进行人声特征评估

带标签的语音录音

使用训练有素的模型,不到一分钟即可获得实时反馈

可以单独使用,也可以与任何规模的团队一起使用,只要每个相关团队成员的声音都单独录制

麦克风输入,CPU处理器,某种形式的显示器

可以通过额外的训练来完善当前模型参数,但是,通用模型已经过训练

方法较新,因此可推广性的证据目前有限

需要在新颖的情况下进行额外的培训。GUI需要完善

方法:语言同步语言样式匹配

涉及两个或更多个人的语音或文本数据

没有用于计算的最小大小。LSM是基于比例的,因此研究人员应确定语音的数量以产生稳定的比例估计。

以二元组为目标,但可以在所有可能的二元组中计算方法,因此团队规模不限于2个

LIWC9;  R包“  lingmatch”10

如果对话记录无法识别发送者和接收者,则必须对它们进行编码才能识别出发送者和接收者

因为分析依赖于成绩单,所以语言同步方法最适合于以后的反馈,而不是实时的见解。

可用于检查任何单词类别的同步性,尽管它最常用于分析功能单词

潜在语义相似度

涉及两个或更多个人的语音或文本数据

语料库需要的文档(例如,取决于分析的话语或说话者)多于维度(或“主题”,它们代表在一起有意义的单词簇);一些研究人员建议至少使用300个尺寸(例如,Dong 2005)。

以二元组为目标,但可以在所有可能的二元组中计算方法,因此团队规模不限于2个

R包“ lingmatch”10,“ lsa”11;Python

如果对话记录无法识别发送者和接收者,则必须对它们进行编码才能识别出发送者和接收者

需要庞大的语料库才能产生有意义的主题。

高度灵活的方法,因此结果将取决于创建语义空间的方式而有所不同

会话级别语法相似性度量标准(CASSIM)

涉及两个或更多个人的语音或文本数据

尚未建立

以二元组为目标,但可以在所有可能的二元组中计算方法,因此团队规模不限于2个

Python;  CASSIM12

如果对话记录无法识别发送者和接收者,则必须对它们进行编码才能识别出发送者和接收者

非常耗时。相对新的方法,在对话中的实用性有限。

可以与任何语法解析器一起使用,这意味着它可以与现有语法解析器一起用于分析任何语言

1. 这种方法需要识别交互的发送者/接收者。可以使用能够识别发送者/接收者的系统来完成此操作(例如,通过聊天记录或每个成员对麦克风的提示);否则,音频/视频记录或观察也可用于在事实发生后识别发送者/接收者

2. https://cran.r-project.org/web/packages/igraph/index.html

3. https://cran.r-project.org/web/packages/sna/sna.pdf

4. https://cran.r-project.org/web/packages/relevent/index.html

5. https://www.mathworks.com/products/econometrics.html

6. https://cran.r-project.org/web/packages/entropy/entropy.pdf

7. https://cran.r-project.org/web/packages/tidyverse/index.html

8. 一个示例是将数据分解为一个状态空间,该状态空间包含发送方和接收方的每种可能的组合。这些可能会被符号标记。然后,可以在时间序列的某些偏差级别(例如熵)下定义代码

9. Pennebaker, Francis, &Booth (2001)

10. https://miserman.github.io/lingmatch/

11. https://cran.r-project.org/web/packages/lsa/lsa.pdf

12. https://github.com/USC-CSSL/CASSIM

 

3.2 涉及进一步研究的关键领域

IA和人-自主系统团队的能力在不断提高。尽管通信领域长期以来一直是人-自主系统团队和人-机器人交互领域的焦点,但IA现在才变得有足够能力更自然地理解、交互并适应人类队友。随着人-自主系统团队在互动、协调和实现共同目标方面表现得更加优秀,利用通信作为了解团队功能的窗口将变得更加重要。在许多情况下,本文描述的方法主要是用于在人类团队中开发和测试的;因此,随着这些方法在这种环境下的进一步实施,关于人-自主系统团队通信评估的文献以及我们对最佳实施方法的理解将会得到改进。

本文中的许多方法都具有对进一步受当前限制约束所刺激发展的关键需求。为此,我们将本文中确定的发展方向和未来研究归纳为四个关键领域,以进一步研究人-自主系统团队中的通信:

1. 需要更有效的数据收集方法。与依赖于生理或行为的评估方法相比,基于通信的评估可以提供丰富的团队互动相关信息,但这通常是以收集处理数据所需的时间为代价的。本文中的许多方法都依赖于录音记录、任务分析或交互分析,这些方法费时费力。然而,更好的转录自动化系统的发展,事件日志等研发将加快的速度使得通信评估可以进行并在理想的情况下实时运作, 因此将消除这些方法的主要缺点,并为理解团队互动的发生开辟了重要的途径。

2. 自主系统的独特性质将如何影响团队互动?未来的自主系统队友被认为具有不断增长的智力,这将允许其在高风险、复杂的环境中进行独立和相互依赖的团队操作。这些IA可能会有各种潜在的偏离标准人类通信范式的通信特征。不管是什么情况,理解自主系统的特征如何影响团队互动是至关重要的,这将会对人-自主系统团队的表现做出更好(更快)的预测。

3. 不同的通信方式如何影响人类自主团队合作?人-自主系统团队可以使用语言、触摸/触觉、手势或其他交互方式,甚至是多模态交互。因此,重要的是要建立我们对这些交互方式如何影响团队动态的理解,例如共同基础、共享认知、信任和凝聚力。这可能为实现新模式和环境下的通信评估方法打开更多的可能性,加深我们描述团队随时间推移的表现的能力。

4. 在不同的团队结构和环境中,与团队效率相关的通信模式是什么?自主系统在一个团队中可以扮演许多角色,而人-自主系统团队可以部署在许多场景中。对于一个给定的人-自主系统配置,什么是最有效的通信模式?对于一个给定的场景呢?因为IA能力通常基于其设计环境而非常具体,所以有时很难在不同的场景中泛化出结果,但是本文中描述的通信评估方法适合回答这些问题。随着更多的数据和这些方法的进一步实施,我们将更好地理解与各种团队结果相关联的通信模式是如何在团队和环境中形成概念。

 

4 总结

在这篇文章中,我们提出了11种评估团队通信的方法,适用于人类-自主系统团队。对于每一个方法,我们描述了评估的过程,方法与团队状态和结果的关系,对应用的考虑,以及当前开发和应用方法到人-自主系统团队的努力。虽然不是所有的方法对所有人-自主系统团队场景都适用,但是每种方法都为团队的核心功能提供了一个不同的窗口。许多这些评估方法主要是为人-人团队开发的,但是它们对人类-自主系统团队的适用性是可期望的,特别是考虑到以灵活的、适应性的、类人的自主系统为目标,这些自主系统将被嵌入到未来的人-自主系统团队中。在纯人类团队中,关于通信、信任和绩效的文献很多,而关于人-自主系统团队中这些关系的文献却没有跟上。因此,我们提出的各种通信评估方法支持我们扩展对通信、信任、凝聚力和人类-自主系统团队绩效的理解。

通信分析的最大优势在于,它可以不显眼地进行测量,这依赖于团队讲话的录音、聊天信息、声音特征或其他可以实时捕获的数据。这是解决人-自主系统团队的自然、客观、可持续评估这一最新需求的关键。未来对军事人-自主系统团队通信的研究应该利用本文中讨论的评估方法,为未来研究的四个关键领域提供有价值的见解,并为更有能力、更灵活、更有效的团队铺平道路。

鸣谢作者想要感谢Jason S. Metcalfe博士对手稿修改的反馈。

资金提供该研究部分由橡树岭联合大学与美国陆军作战能力发展司令部(CCDC)陆军研究实验室(ARL)的合作协议管理的美国陆军研究博士后奖学金项目所支持。研究由CCDC ARL资助,在合作协议编号为w911nf - 18 - 2 - 0230。亚利桑那州立大学在陆军研究实验室合作协议w911nf - 18 - 2 - 0271的部分支持下进行了研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值