一个指导人机系统评估的框架

最新推荐文章于 2024-08-21 08:24:46 发布

人机与认知实验室

最新推荐文章于 2024-08-21 08:24:46 发布

阅读量827

点赞数 1

文章标签：大数据编程语言 python 机器学习人工智能

引言

Tim是阿德·阿斯特拉工程公司(AAEC,Ad Astra Engineering Corp)的一名航天工程师，他参与了用于未来远距离长期火星探测任务的机器人系统的开发。他和他的同事为一种新的遥控机器人开发了一个初始原型，根据他的测试，这个原型似乎可以完美运行。Tim的上级告诉他，他必须使用适当的测量技术彻底评估机器人的安全性和绩效。然而，Tim是AAEC的新员工，他从未正式评估过他的机器的安全性和绩效。由于不知道从哪里开始，他进行了一次快速的在线搜索，但结果令他不知所措。一些研究人员测量以用户为中心的变量，如态势感知(SA)和认知负荷(Kaber，Perry，Segall，McClernon & Prinzel，2006；Parasuraman，Cosenzo & De Visser，2009)，还有其他人研究测量机器输出，如误差率和误差分数(Glas,Kanda，Ishiguro & Hagita，2012；Prinzel, Freeman, Scerbo, Mikulka,& Pope，2000)。

在想要快速完成评估的压力下，Tim决定继续只测量错误率，通过记录检索对象时犯错次数的方法。经过Tim的评估，AAEC部署了机器人，宇航员开始用它进行未来任务的训练。然而很快就清楚地发现，宇航员很难与机器人交互和使用机器人。宇航员很难遥控机器人，以至于机器人经常与障碍物碰撞，这通常导致必要的维修。AAEC最终完全结束了这个项目，Tim作为AAEC航天工程师的第一个主要项目被认为是彻底的失败。

这个例子看似戏剧性，但并非罕见。通常，不仅仅是航天领域，所有领域的机器都是根据既定的要求精心设计的，但由于各种错误观念，没有对其绩效和安全性进行适当的评估，包括本场景中提到的错误——如果设计者可以使用，任何人都应该能够使用。这些假设通常会导致对机器的评估不充分，进而导致机器无法安全运行或以预期的最高效率运行。即便像车辆开关这样简单的东西，忽视对其进行充分测量可能会导致死亡，几个现代案例就证明了这一点，在这些案例中，无钥匙汽车错误地没被关掉而仍在运转，由于其缺乏仍在运转的指示。很多情况下，这个错误导致了一氧化碳中毒(McCoppin & Berger，2015)。虽然这些车辆很方便，但它们不发出声音，且通常在车主下车后仍在运转的情况没有指示——这种危险显然在这种车辆的设计中被忽略了。

包括航空航天在内的几个领域的研究强调了实现人机系统的挑战，特别是当机器变得越来越自动化时，因为这些人机合作关系可能引发导致负面后果的风险条件(e.g.,Endsley & Kaber, 1999; Lee & See, 2004; Parasuraman &Manzey, 2010; Parasuraman, Sheridan, & Wickens, 2000)。例如，人机交互的缺点被描述为导致进步号与和平号空间站发生碰撞的原因(Billman, Feary, & RochlisZumbado, 2011; Ellis, 2000)。因此，系统设计人员、操作员和主要工作人员评估这些机器的安全性和绩效以优化它们在工作环境中的功能是非常重要的。这一考虑包括建立有效和可靠的人机系统安全性和绩效测量标准的需要。然而，除了直接检查人机系统的安全性和绩效之外，我们还必须考虑和评估影响安全性和绩效的因素。测量的第一步是确定需要测量什么，这正是我们在这里要展示的。为此，我们将强调人机系统中应考虑评估的因素类别，并指出这些类别之间可能存在的关系。

那么，需要测量什么呢？虽然很容易说“态势感知影响绩效”或“工作负荷影响安全性”，但通常很难看到全局：这些变量和许多其他变量会同时影响安全性和绩效。因此，为了确定影响安全性和绩效的相关因素，我们创建了一个指导框架，考虑各种人、机器和上下文输入以及人的状态和过程如何与安全性和绩效复杂地联系在一起。该框架强调了人机系统评估应该考虑的关键领域。尽管存在其他的人机系统测量框架(Olsen &Goodrich, 2003; Pina, Cummings, Crandall, & Della Penna, 2008; Steinfeld etal.,2006)，但应该指出其几处局限。例如，尽管一些框架提供了关于人机系统结构测量的有价值的信息(Steinfeld et al., 2006)，但他们没有考虑到交互本身的先导的存在。例如，如果不考虑人给交互带来的偏差，工程师可能会创建人不想要或不知道如何使用的系统。

在其他考虑到先导存在的框架中(Pinaet al., 2008), 被测量变量之间关系的复杂性没有被充分考虑。如果不考虑人机交互中各种输入是如何融合的，人们可能会误解整个过程，由此也许会发生安全故障并错过发现一个故障指标。本文提出的框架的独特之处在于我们不仅考虑到必要的先导，而且考虑到它们在影响安全性和绩效方面的相互作用的复杂性。该框架使得研究人员和从业者能够检查粒度级别的人机系统，以便更容易确定系统故障指标，同时也增加了未来人机系统机器设计成功的可能性。

图一人机系统中影响安全性和绩效的因素框架

我们的目标是通过考虑经验和理论研究表明可能影响人机系统安全性和绩效的可测量因素来增加现有的知识体系。因此，我们试图构建我们的框架来涵盖人机系统科学的全部状态。目前的科学状况包括对自动化和自主性的高度关注。因此，该框架中确定的许多变量和关系最容易应用于包含自动和自主机器的系统。接下来，我们通过首先讨论框架的基础，然后描述框架的每个组成部分，来详细探讨我们所提出的框架。为了保持必要的简洁和关注令人感兴趣的输出，我们将只详细介绍文献中发现的与绩效和安全性输出最广泛相关的先导。最后，我们将讨论该框架的实际意义和局限性。

框架概述

图1给出了一个框架，解释了现代人机系统中应该考虑测量的方面，特别是在这种系统中单人和一个或多个机器的交互。该框架确定并呈现了几个结构，因为它们与两个重要的输出相关：安全性和绩效。我们确定并使用这些结构作为深入的定性审查的一部分(Oglesby, Iwig, Stowers,Sonesh, Leyva, & Salas, 2017)。分析中仅包括经同行评议的实证文章。我们对每篇实验检验变量的文章进行了分类，给出了人机系统中考虑变量的科学状态的简要说明。结果随后证实了我们最终框架中选择的变量。

如图所示，人机系统的输入分为三类:人、机器和上下文。人的过程和状态将这些输入与关键输出联系起来，并被分为态度、行为和认知三个变量。该框架旨在为单个操作员和机器之间的每个短期交互提供信息，通过上述输入、过程和状态的组合来实现安全性和绩效的输出。该框架并不旨在说明安全性和绩效可能受特定变量影响的所有方式，也不旨在说明能够影响这些输出的每一个变量。相反，它是科学状态的一个高度简要说明，它通常将人机交互视为输入-过程-输出的模式。

当我们在本文中描述人机系统框架的关键组件时，我们将从输出向输入，反方向详细描述框架。这样做是为了让我们探讨这种预期输出的各种前因时，始终记着人机系统的最终目标。具体来说，我们首先探讨有效的人机系统必须达到的输出(即安全性和绩效)。其次，我们描述有助于实现这些输出的人的态度、行为和认知变量。最后，我们详述三大类输入(即人、机器和上下文)，它们直接影响人的状态和过程。本文简要讨论人机交互的关键方面在获得最佳输出中的重要性。虽然为了简单起见，这个框架必须侧重于文献中出现的最显著和论据充足的变量，但我们会尽力让大家关注值得更多研究的其他令人感兴趣的变量。因此，这一框架中的不足之处应被视为科学状况中可以改进或可进一步研究的领域。

输出

如前所述，本文提出的框架探讨了人机系统中需要考虑的两个主要输出:安全性和绩效。在下面的段落中，我们将定义这些变量，并讨论它们作为我们框架的锚点位置。对这些变量的深入探索有助于为人机系统选择合适的指标，特别是当在人机交互中考虑它们相对于最终先于它们的输入、状态和过程的位置时。例如，对安全要求和风险的深入理解可以帮助人们决定应该直接测量安全性(例如通过计算碰撞次数和差点碰撞次数)还是间接(例如通过测量可能与安全漏洞有关的已确定的先导)。

安全性

理解如何在人机系统中防止事故、错误和伤害至关重要。要做到这一点，首先必须在人机系统的范围内操作安全。安全性可以在没有灾难性事故或其他负面事件的情况下操作(Mustafiz, Sun,Kienzle, & Vangheluwe, 2008)，随着事故率的增加，安全水平会降低。我们进一步将安全性描述为在安全性第一的环境中的绩效(例如任务的成功完成)和效率(例如及时性)。也就是说，如果优化安全性是系统的目标，那么与该目标相关的绩效可以被认为是安全性本身的度量。例如，空中交通管制的绩效在某种程度上涉及到被引导着陆的飞机之间需要保持适当间隔。在这种情况下，该绩效目标也是安全性的关键特征。

在探索孤立、受限和极端环境时，安全性至关重要；事实上，这是没有商量余地的。例如，虽然众所周知人类的太空飞行有内在风险，但如果不能确保宇航员和他们使用的运载工具和系统尽可能相当地安全，安全探索是不可能的。因此，美国国家航空航天局(NASA)对航天器的安全性标准制定了极其严格的要求(NASA，2016)。然而，尽管最优秀和最聪明的人聚集在一起，积极主动地识别和预防每一个可能的故障、危险或风险，仍然有悲惨的事故发生(例如1967年阿波罗1号，1986年挑战者号航天飞机，2003年哥伦比亚号航天飞机)。

那么，还能做些什么来确保人类太空飞行的安全呢？长期以来，人因心理学一直致力于研究如何最大限度地提高机器的安全性(Billings, 1997; Hoc& Amalberti, 2007; Morel, Amalberti, & Chauvin, 2008; D. Woods, 2010;D. Woods, Johannesen, Cook, & Sarter, 1994)。答案通常不仅是最大化自动化机器，而且是将其他元素视为更广泛的社会技术系统的一部分。相关因素可能包括不良的机器设计、缺乏培训以及用户对机器的误用。这些中的任何几个因素都可能结合在一起，导致灾难性的后果，这说明安全性往往不在人机系统的单一因素的控制之下(Reason，1990)。因此，人们已经认识到，旨在提高、改善和规范系统安全性的组织、子组织、设计者和操作者往往会带来系统故障和潜在的致命事故(Dekker，2004)。对这些主题的理论和应用研究已经得出了一些举措，如弹性工程，或以弹性方式执行的系统设计，以改善安全性输出((Hollnagel, Woods,& Leveson，2007)。

提高安全性的一种方法是识别出那些由于被认为无关紧要而被忽略的危险和风险。美国宇航局在其事故先导分析中使用这种方法来识别和分析系统中的错误，以免它们成为事故(NASA，2011年)。这种鲁棒分析为考虑其他安全措施提供了一个起点。除了以这种方式识别错误之外，考虑来自人、机器和环境的可能预测或影响安全性的变量也是周到的做法。这些变量中的一些可能影响安全性或有助于避免安全漏洞。在目前的框架下，我们考虑了可能有助于人机系统安全性的多种输入、过程和状态。

绩效

我们在这个框架中把绩效操作化视为人机系统中目标和子目标的顺利完成。人机系统的一个显著目标是达到超越人类单独所能达到的绩效水平。现在的目标——在2030年前将人类送上火星(Daines, 2015)——只有通过这样的系统才能实现。只有通过高度复杂的自动化机器和工程师、宇航员和人类操作员的人工输入的结合，才能实现这一崇高目标。然而，这个目标，很可能是人类承担的最具挑战性的任务，只有确保人机系统要实现的每个子目标和任务都成功才能实现。许多活动和任务的高水平绩效是实现到达火星的更大目标或任何人机系统目标的基石，这一点至关重要。

绩效也可以更具体地从效率，或者以人机系统花费最少时间和精力成功完成一项任务的角度来探索。根据这个定义，一个成功完成的任务只有在规定时间和预期的付出范围内才算是有效率的。效率可以通过评估除了整个系统之外的人或机器花费的时间和精力来评估(Pina et al., 2008)。

重要的是要认识到，我们对绩效的一般定义取决于目标本身，以及与这些目标相关、可能影响的绩效的输入、过程和人的状态。此外，几个因素可能共同影响人机系统的效率。因此，考虑影响绩效变量间的交互非常重要。该框架旨在通过讨论三类人的状态和过程以及三类影响绩效的输入，来展示直接和间接影响绩效的变量。

人的过程和状态

人为错误不是随机的。它源于人类的基本心理能力和身体技能，以及所使用的工具的特点、所分配的任务和操作环境。(Leveson，2011，p . 273)

在我们的人机系统框架中，人的状态指的是认知、动机和情感成分(Marks, Mathieu, & Zaccaro, 2001)。另一方面，人的过程被定义为通过认知或行为活动将输入转化为输出的行为(Marks等人，2001). 人的过程和状态不仅会影响安全性和绩效的输出，还会受到其他已有因素的影响。因此，对这些变量的测量是非常有用的，也是成功实现人机交互的必要条件。

基于人机交互文献中的信息，我们将人的过程和状态分解为态度、行为和认知，其中态度代表用户感受到什么，行为代表用户做了什么，认知代表用户怎样思考。这种特殊的变量划分是基于关于人如何与周围环境互动的两个假设。首先，个人的行为基于先前存在的态度(Ajzen &Fishbein,1980; Householder & Greene, 2003)。其次，人的认知与拥有智能行为的能力是分开的，除此之外还影响着这种能力(Aizawa, 2015;Rupert, 2013)。这三点考虑往往被系统设计者忽略。然而，这三个属性极大地增加了人机系统成功或失败的可能性。因此，对态度、行为和认知进行持续监测和量化是至关重要的，因为它们为如何改进或设计更可用、安全和高效的系统提供了深刻的见解。

如下所述，影响人机系统的一个主要态度是人对自动化的信任。主要行为包括依赖、监测和与自动化的交互。认知变量包括态势感知、认知负荷等。所有这些都被认为是人机绩效和安全性的前提。对所有这些因素的评估可以提供一种积极的方法，用于在安全性和绩效发生崩溃之前对其进行预测。因此，对这些因素的详细探索是理解它们在人机系统中的作用以及测量它们的必要性的关键的第一步。

态度

在这个框架中，我们将信任视为人机系统中普遍存在的焦点态度。传统地说，信任被探索于复杂的人类互动的交叉点上(Mayer, Davis, & Schoorman, 1995)。信任也存在于人、机器和上下文输入的交叉点，涉及人机系统中机器和其他团队成员的互助理念。根据这一定义，当操作员相信机器会帮助他实现任务目标时，他就体验到了对机器的信任。人-机系统中的信任也可以被定义为这样一种理念，一个会在某种情况下帮助人的因素，无论是自动化的还是人工的(Lee & See, 2004)。信任被认为是评价许多机器接受度的关键因素，也是操作员根据机器提供的信息做出决策的关键因素(Hancock et al.,2011). 随着新机器的引入，这种结构变得越来越重要。例如，包括如今越来越受欢迎的自动汽车在内(Meister, 2015)，成功的系统将在很大程度上依赖于操作员的信任。另一方面，要考虑到社会对机器使用的适应，包括通过培训，甚至简单地接触机器，都可以产生学习效果，从而提高人对机器的理解和使用，进而促进对其信任。

信任通常受机器可靠性(稍后讨论; de Visser & Parasuraman, 2011)，有效性(de Vries，Midden，&Bouwhuis，2003)和及时性(Abe& Richardson，2005)的影响。个体差异，如年龄和文化，也在信任中发挥作用(Ho, Wheatley,& Scialfa, 2005; Rau, Li, & Li, 2009)。当用户信任机器时，用户可能期望更高的机器可靠性和更少的错误(Dzindolet, Peterson, Pomranky, Pierce, & Beck, 2003)。因此，为了保持用户信任，维持这些期望是很重要的。同样重要的是，要确保信任度不会高到导致用户过度依赖和自满(Lee & See,2004；在下一节中讨论)。

为此，重要的是要考虑人机系统中信任的校准，以便优化安全性和绩效。信任校准的目标是让机器的用户基于他们与之交互的自动化机器的绩效来学习适当的信任水平(McBride &Morgan，2010)。适当校准的信任可以导致对机器的适当依赖(接下来讨论)，从而提高安全性和绩效，或者至少防止灾难(Gao & Lee，2006)。

行为

依赖、监测和与自动化的交互是密切相关的行为。如果考虑到人们的态度通常指导他们的行为，可以预见，上述行为也同样能建立信任。这些行为都是影响人机系统安全性的重要变量，因为它们会显著影响操作员在安全性第一的环境中做出适当反应的能力。下面我们首先讨论依赖，然后描述与依赖相关的监测和自动化交互。

依赖可以定义为对自动化的依赖程度(Wood，2004)。信任是对自动化机器的一种态度，而依赖则是一种行为。虽然信任经常影响依赖(Merritt, Huber,LaChapell-nnerstall, & Lee, 2014)，但这两个变量并不相互包括。例如，一个人可能信任一台机器能完成一项任务，但不依赖它来完成；与之对应，一个人可能不信任机器，但由于其他情况(如高工作量)而被迫依赖机器。

过度依赖会导致人不按预期使用自动化机器——这种影响也被描述为“不当使用”，其形式可能是自动化的停用、误用或滥用(见Dzindolet、Pierce、Beck & Dawe，1999；Parasuraman& Riley，1997)。过度依赖还会导致自满，自满被定义为错误地假设机器运行正常，导致缺乏警惕性(Billingset al., 1976, as cited in Parasuraman & Manzey, 2010)。自满导致缺乏对自动化机器的监测或关注(Sheridan& Parasuraman，2005)，并随后导致整体态势感知水平的下降(Endsley，1996)。监测和态势感知的减少增加了操作员无法及时检测和管理机器故障的风险，从而增加了潜在的安全风险(Bahner,Hüper, & Manzey, 2008)。对自动化机器的依赖不足也会产生与上述相当的负面影响。例如，各种机器频繁的错误警报会导致用户忽略关键指标，从而导致事故发生(Parasuraman & Riley，1997)。

与信任类似，为优化人机系统的安全性和绩效，多少依赖是足够的，多少是太多的问题，人们已经进行了大量思考。在安全方面出于对极端依赖的考虑，建议将对自动化机器的依赖保持在中等水平，从而使得用户在适当的水平上信任机器，从而在检测错误的同时提高绩效，这与前面介绍的信任校准研究一致。保持这些因素在适当水平的重要性表明了测量它们的必要性，这使它们成为人机系统整体评估中的关键考虑点。

认知变量

许多认知变量已经显现出对人机系统的重要性，应该被认为是人机系统研究的组成部分。然而，这些高度复杂的因素在身体状态、情感状态和认知状态的连续体上究竟存在于何处，往往不得而知。此外，它们的相关性通常只在与机器的长时间交互或紧张的环境中才会得到重视。其他因素，如态势感知和认知负荷，已直接作为在各种各样的环境中产生的认知变量加以操作，从而已成为许多不同类型人机系统绩效和安全性的明确认知指标。我们将这些因素作为框架中的主要变量，因为有大量的研究支持对它们进行评估的必要性(Kaber et al.,2006; Parasuraman et al., 2009; Sauer, Nickel, & Wastell, 2013)。然而，我们仍然鼓励研究人员考虑其他相关因素，这些因素可能出现在特定的情况下，但不属于该框架的范围。

态势感知(SA)被定义为对周围环境的感知，对其意义的理解，以及预测其未来状态的能力(Endsley，1988)。因此，态势感知被描述为存在于三个层次:感知、理解和预测(i.e., projectionof future states based on current knowledge; Endsley, 2000)。对个人和团队来说，态势感知都是绩效的重要媒介(Endsley, 2000;Salas, Prince, Baker, & Shrestha, 1995)，并在理解人机系统环境中的绩效输出方面发挥了关键作用。根据Endsley(1996)的说法，态势感知的损失会导致人不在环。换句话说，绩效下降与操作员缺乏控制、缺乏适当的技能或缺乏对机器自动化的充分认识有关(Endsley，1995)。为了说明这一点，Endsley和Kiris(1995)的报告指出，手动条件下的参与者比全自动条件下的参与者对系统状态有更全面的了解，从而表现出更高的绩效。

类似的研究也反映了人机系统环境中态势感知和绩效间的正向关系。例如，Endsley和Kaber (1999)证明了在自动化系统实施过程中引入人会提高人机系统绩效，从而增加了态势感知并使人在环。他们还提出，控制机器机会的减少会导致效率低下的绩效，并降低故障恢复的成功率(Kaber & Endsley，1997)。由于缺乏控制或缺乏与机器的交互而导致的这种绩效下降，本质上被称为技能衰退(Arthur &Bennett，1998)，这会对安全性产生负面影响，尤其是当面临对时间要求苛刻、安全性第一的任务时，这些发现与人机系统的安全性和绩效尤其相关，因为自动化机器要求操作员把意义归咎于它们，以检测和预测潜在问题。

认知负荷也是人机系统安全性和绩效的重要预测因素(Langan-Fox, Canty, & Sankey, 2009)。其定义为任务所需的资源和操作员完成任务可用的资源之间的关系(Parasuraman，Sheridan & Wickens，2008)，认知负荷本应通过自动化机器来减少。然而，Miller和Parasuraman (2007)指出，无论是低水平还是高水平的自动化都会给操作员带来工作负荷。例如，机器可能需要操作员的高度参与，而操作员可能根本不使用机器或采取适应性策略(例如关注另一项任务)。事实上，高认知负荷期间的任务适应性策略可能是操作员认知过载的重要指标(Kirlik，1993；Parasuraman & Hancock，2008)，因此我们强调认知负荷和与机器的行为交互之间的重要联系。

操作员承受的认知负荷量受多种因素影响，包括机器的自动化程度(LOA,参见机器输入部分)和他们需要执行的任务(参见上下文输入部分)。此外——根据认知负荷理论——环境背景，包括任务操作和个体差异，是压力的主要来源(Conway, Szalma,& Hancock, 2007; Hancock, Ross, & Szalma, 2007)，影响工作负荷(Hancock & Warm,1989)。经历了持续长时间高认知负荷的操作者也许不能有效应对未来的不利事件(Parasuraman etal., 2008)，从而威胁安全。同样，经历持续的异常低工作量或低负荷的操作员也可能变得非常无聊或分心，从而导致他们无法有效地响应不断变化的事件。这是长期任务中令人特别感兴趣的问题，特别是美国国家宇航局计划的火星之旅(Oglesby &Salas,2012)。通过运用健全的措施，从业者可以根据任务确定可以接受的工作负荷水平，而不损害整个系统的安全性或绩效。

输入

根据所提出的框架，三类输入影响人机系统:(1)人的输入，或由系统中的人类操作员发起和改变的因素；(2)机器输入，或由机器本身发起和改变的因素；(3)上下文输入，或人和机器控制之外的因素。这三个类别改编自Hancock和其同事(2011)的影响人机交互中信任发展的类别。我们认为这些类别影响的不仅仅是信任的发展；它们还相互作用，影响所有指向安全性和绩效的人的过程和状态。它们的测量对于人机系统的设计至关重要，包括团队成员选择和机器界面设计。理解这些因素如何影响人机系统，是选择指标和指导方案的第一步，这将指导人机系统的设计。

人的输入

几乎所有的系统都包含人，但是工程师通常不太了解人的因素，也不会在技术组成部分周围画出实用的边界，将注意力集中在这些人为的边界内。(Leveson，2011，p . 175)

许多种人的特征影响整个人机系统。我们的框架中没包括，但需要注意的两个变量是性别和年龄。尤其是年龄，是检查任何基于技术的系统时必须考虑的因素。我们的框架不包括这些变量，因为年龄和性别对人机系统的影响仍处于研究和发展中，因此很难给出优化安全性和绩效的具体建议。然而，我们鼓励研究人员在需要探索的特定情况下考虑这些变量。

在我们的框架内，我们把研究最深入和最有影响力的人的特征组合并组织成以下变量:认知能力和人际特质。接下来，我们将详细讨论认知能力和人际特质，以信任倾向和个性作为考虑的关键特征。

认知能力。认知能力包括先前经验、专业知识、技能、空间能力和工作记忆等特征。我们以广义的方式定义先前经验，包括先前与其他机器的互动，这可能会影响人际特质(稍后讨论)。另一方面，专业知识代表对某个领域掌握，而技能是可以获得和提高的。技能定义为可波动的水平，而专业知识被认为是一种具有更稳定技能的状态(Bril,Rein, Nonaka,Wenban-Smith, & Dietrich,2010). 技能和专业知识可以与其他输入相互作用，从而导致各种过程和输出。例如，如果用户高度依赖自动化机器，就会出现技能衰退(手动控制技能的丧失)(Parasuraman etal.,2000). 此外，与机器交互相关的专业知识和技能可以更好地检测自动化故障(Parasuraman& Manzey，2010)，这对人机系统的安全性和绩效非常重要。因此，重要的是量化这些技能、专业水平和经验，以确保操作员装备好并“准备好”与机器互动。

空间能力是由多种能力组成的智力的一方面，例如对多维物体的识别和操纵(Lathan &Tracey, 2002)。在模拟机器人操作任务中，空间能力与扫描、检测和瞄准目标的更高有效性和准确性相关(Chen & Barnes,2012; Chen, Durlach, Sloan, & Bowens, 2008)，也可以预测完成指定机器人路线的速度(Chen et al., 2008;Lathan & Tracey, 2002)。空间能力是航天员进行机器人遥控操作的一项重要技能，可以通过美国国家宇航局的机器人训练来提高空间能力(Liu, Oman, Galvan,& Natapoff, 2013)。同样，由于与工作负荷的关系，工作记忆对人机系统也很重要(Stein feld et al., 2006)。所有这些证据表明，空间能力和工作记忆是操作员认知能力的重要方面，影响人机系统的过程和输出。

人际特质。人际特质是指导行为倾向的个体差异(Wiggins, 1979)。其包括个性和信任倾向等特征。美国心理协会(2016)将个性定义为思想、行为和感觉上的个体差异。用户的个性特征会以多种方式影响人机系统。操作员先前存在的个性特征可能会影响用户在与机器交互时的表现，例如，影响操作员如何应对工作负荷需求(Szalma &Taylor，2011)。

个性也可能影响人机交互过程。例如，在一项详细的研究中，Szalma和Taylor(2011)研究了与自动机器互动中的个体差异，发现神经过敏症会损害工作记忆和持续注意力等过程。他们还发现，外向的人通常能够完成可靠性或自动化程度低的任务，但在一个高度可靠的系统中，这个人的表现会受到影响，因为更容易自满。勤恳认真的人能够在一个高度可靠的系统中表现良好(Szalma &Taylor, 2011)，而和蔼可亲的人擅长确定适当的信任水平(Lee & See, 2004; Szalma & Taylor, 2011)。最后，那些喜欢分享经验的人更有可能检查自动机器的准确性，而不太可能盲目相信它是正确的(Szalma & Taylor，2011)。鉴于这些发现，我们可以看到个体的性格差异可以预测与机器的互动，进而预测安全性和绩效。

信任倾向，或“信任他人的一般意愿”(Mayer et al., 1995, p. 715)，是与个性有关的一个重要的个体差异，因为它不会简单地由于与自动机器的一系列交互作用而改变。例如，信任倾向不会因为与值得信赖的机器或人交互而改变。它被认为是一种稳定的特性，而信任程度(作为一种态度)本身可以根据被信任方的特征而变化。事实上，有些人认为信任倾向是一种受过去经历影响的个性特征，这随后被用于识别类似于应用或消除信任的情况(Rotter，1971)。研究人员发现，与信任倾向较高的人相比，信任倾向较低的人认为计算机不太可信(Cowell & Stanney, 2005)。这种缺乏可信度的感觉可能会影响用户依赖机器的决定，从而影响用户与机器的交互，并最终影响人机系统的整体安全性和绩效。

机器输入

若仅将操作员犯错或怠工认定为事故的根本原因，就错过了防止将来类似事故的大多数机会。(Leveson，2011，p . 28)

机器输入是机器的特征，可以影响它与人的互动。这些特征还会影响用户的决策以及用户与机器的交互方式。机器输入对人机交互的影响是机器设计中需要考虑的一个重要因素，这也是我们框架的一个重要原则。虽然可以考虑许多机器特征，包括尺寸、人体测量和与用户的关系，但我们选择了五个最有影响且在文献中具有最多理论和经验支持的特征。这些机器特征是自动化程度(LOA)、适应性、可靠性、透明性和可用性。众所周知，自动化程度和可靠性很重要(see Parasuraman et al., 2000;Sheridan & Parasuraman, 2005)。例如，自动化程度，或者说机器在没有人工输入的情况下完成任务的程度，会影响人与机器的交互方式(Parasuraman etal., 2000). 同样，可靠性，或者说机器完成任务的一致性，会导致机器和整个系统的成败(Sheridan & Parasuraman, 2005)。在当前人机系统存在的更加动态和复杂的环境中，适应性和透明性可能变得更加重要。因此，我们在这里重点关注这两个变量。

适应性。适应性自动化(AA)是为了提高整体系统绩效而对操作员进行的动态分配控制(Kaber, Wright, Prinzel, & Clamann, 2005)。每当需要操作员输入时(例如在安全危机中)，适应性自动化使操作员能够控制机器。这一特征不同于适应力，适应性是机器控制的，而适应力是人控制的(Chou, Lai, Chao,Lan, & Chen, 2015)。更具适应性的任务分配可以增强机器的监测过程，有可能降低人过度依赖和丧失态势感知的威胁(Parasuraman,Mouloua, & Hilburn, 1999; Parasuraman, Mouloua, & Molloy, 1996)。适应性自动化也是应对人机系统中与平衡操作员工作负荷相关挑战的一种手段。这一概念增加了自动化的灵活性，为操作员减轻负担，同时使操作员人在环。

Parasuraman和他的同事(1996)进行了一项研究，研究了两种不同类型的适应性任务分配，一种是基于模型的任务分配框架(自动化程度根据已知模型而变化，不会因人而异)，另一种是基于绩效的任务分配触发机制(自动化程度根据评分标准而变化)。他们发现，基于模型的技术能够将控制权从机器转移到用户再转移到机器以增强检测。另一方面，有些人主张考虑人的状态。例如，Kaber和他的同事(2005)建议，为了以一致、可靠的方式实现适应性自动化，需要关注操作员和这些适应性自动化带来的压力。

透明性。透明性是界面告知操作员机器的目的、推理和未来计划的能力(Chen et al., 2014) ，并且可以被广义地定义为由机器传达给用户的信息水平。这种能力很重要，因为它可以提高操作人员的态势感知水平，而缺乏透明性可能对态势感知水平、安全性和整体绩效有害(Sarter，1995)。例如，增加透明性可以为机器提供一种手段，让操作员知道它在做什么以及为什么这样做，以防止操作员出于不确定或不信任而做出不必要的超控行为。

来自机器的通信可以采取视觉或听觉反馈的形式来提醒用户发生变化或故障，向用户提供当前机器状态信息的显示器配置，或在任意时间给出能够指示绩效水平的其他信息。评估机器如何向用户提供信息很重要，因为与用户沟通的方式和速度等因素会影响安全性。例如，触觉反馈的存在在帮助避免机器操作中的碰撞方面特别有效(Lee & Kim, 2008)。与此同时，这种透明性在机器中的有效性取决于它的可用性——也就是它的学习能力、效率、记忆力、错误和相应的用户满意度(Nielsen，1994)。例如，虽然研究人员建议让机器中的不确定因素保持透明是有益和必要的(Endsley，2011)，但一些人也发现它会带来可用性问题(Stowers et al.,2016)，从而使其潜在的优势无效。

上下文输入

影响人机系统的一些因素实际上可能是外部的，或者说上下文的。在这个框架中，我们认为任何不在人或机器直接控制范围内的都是上下文因素。在测量人机系统时，考虑上下文输入很重要，因为它们决定了正在执行的任务类型以及对任务施加的约束。由于许多上下文输入是特定于某个环境或任务的，并且可能有很大的不同，所以我们将这部分限制于在多种背景都重要的因素。这些因素在文献中有最多理论和经验的支持，影响人与周围环境的交互。

任务变量。多个任务变量可能会影响人机系统的绩效和安全性，包括多任务、任务类型、任务负荷和任务复杂度。这些变量可能会通过与系统的其他输入交互来影响人机系统。例如，在多任务环境中，用户需要在任务之间切换，这可能会降低绩效(Cullen, Rogers,& Fisk, 2013)。机器的自动化程度可以与多任务环境交互，并确定用户在多任务时的效率。类似地，在自动化不完全可靠的环境中进行多任务处理会增加操作员的工作负荷(Cullen et al.,2013)。

任务负荷，或者说操作员负责的资源或需求的数量，通过去适应不良的工作负荷和态势感知，影响人对机器的使用(Biros，Daly，& Gunsch，2004；Skitka，Mosier & Burdick，1999)。在行驶的车辆从加速切换到制动时，一个次要任务的存在会导致响应时间延迟(Donmez, Boyle, & Lee, 2007)。高水平的需求，如操作多个机器人，会导致在可能需要操作员注意的情况时出现检测失误(Crandall,Cummings, Penna, & de Jong, 2011)。另一方面，太少的需求会导致无聊和脱离，这也可能导致监测绩效的下降(D’Mello, Olney,Williams, & Hays, 2012)。这两个极端都会导致安全性和绩效威胁。

任务复杂性是一个被研究的很多但往往不清晰的变量，它的经典研究角度有(a)任务中包含的元素数量，(b)任务元素之间的关系，(c)这种关系随时间的演变(W.Woods, 1986)。一个更全面的定义阐明，它是“影响任务绩效的任何内在任务特征的集合”(Liu & Li,2012, p. 559)，包括令人感兴趣的任务特征，如任务的清晰度、数量和多样性(全面叙述见 Liu & Li, 2012)。该定义与经典人机交互文献高度一致，经典人机交互文献通常仅将任务复杂性表示为被监测的显示器的数量(e.g., Molloy &Parasuraman, 1996)。

特别是在航天飞行中，任务需要具有高水平专业知识和经验的人执行，任务复杂性具有高度相关性。Campbell(1988)认为，复杂的任务可能会导致信息过载和信息多样性的增加。此外，当某些选项会导致失败时，拥有选项会使任务复杂化。Maynard和Hakel(1997)认为，除了任务的实际复杂性之外，对其复杂性的感觉也会影响绩效，因此任务看起来越复杂，绩效就越差。

任务的复杂性也会影响安全性，这取决于情境的上下文和其他相关变量。例如，一些团队发现越困难和复杂的任务会导致越多的冲突(e.g., Boessenkoolet al., 2013). 另一方面，另一项涉及电厂操作员的研究表明，工人在高任务复杂性条件下，人际特质在安全绩效中起作用(Zhang, Ding, Li,& Wu, 2013)。综上所述，这些考虑要求对任务的复杂性进行精确的测量，以便在中度和高度复杂的任务中构建绩效和安全对策。

环境。环境因素定义为任务之外的人机系统环境的特征，这意味着它们不受任务的影响，也不直接影响任务。环境因素很重要，因为尽管它们不直接影响任务，但它们可能会影响操作员完成任务的能力。具体来说，环境刺激可能与人和机器的行为相互作用，这突显了在人机系统中考虑环境的必要性。这种刺激可能包括噪音、温度和海拔，会影响人和他们的任务之间的相互作用，使其难以保持感知(Sarter, Woods,& Billings, 1997)。例如，当达到预设高度时，飞机驾驶舱可以自动改变模式，而不需要用户采取行动。此外，噪声等因素已被证明会影响所选的自动化程度(Sauer et al., 2013). 与干扰用户执行当前任务的噪音一样，环境中的其他变量也会对操作员的任务表现产生重要影响。

讨论

我们在这里概述的框架是一个工具，通过说明影响人机系统安全性和绩效的各类先导条件和输出之间的联系，来传达需要测量的关键因素。通过考虑这些因素及其相互关系，我们可以采取多种方法来测量和监测安全性和绩效。具体来说，这个框架不只关注直接测量安全性和绩效的狭隘方法，还帮助从业者通过更广泛的方法来预测安全性和绩效(通过测量其输出之前因素的方法)。例如，通过监测这里讨论的因素，从业者可能能够检测到绩效的下降。当绩效下降时，对其中一个不良因素的修正或校准可能会导致绩效的修正。安全性也可以以类似的方式提高。

在评估人机系统时利用这一框架同样可使设计者能够更积极主动地确保系统成功(通过将它用作确定人机系统设计要求的预测策略)。具体来说，设计者最可能受益于考虑如何设计机器输入，以使它们与人和上下文输入交互，从而产生最佳输出。例如，考虑用户群体和人际差异可能有助于设计者指定机器透明性以获得最佳安全性或绩效。

在本文开头的场景中，Tim不知道如何评估机器人的安全性和绩效，并且不完全地评估了这些输出，这最后导致了机器人的失败。现在让我们想象一下这个场景，假设Tim可以得到这里给出的框架，并使用它来指导他对人机系统安全性和绩效的评估。在使用这个框架时，Tim开始理解人、机器和上下文输入之间的联系，以及它们对令人感兴趣的输出的影响。有了这些知识，他意识到，为了评估他的遥控机器人的安全性和绩效，重要的是在评估过程中操纵环境和任务变量，以使它们尽可能地与操作条件相匹配。此外，他应该评估机器人的适应性和实用性，操作机器人时人的态势感知和认知负荷，以及输出变量，如操作员满意度、失误(如碰撞或偏离首选路径)和任务完成时间。现在他有了准确评估机器人安全性和绩效所需的信息。这些评估的结果揭示了需要改进的具体领域。Tim在第二个原型中阐述了这些领域。最终，Tim和他的团队能够交付一个最终的原型，宇航员能够安全有效地操作。

这个例子说明了将本文提出的理论框架用作开发人机系统测量指南和建议的好处。显然，人机系统的安全性和绩效取决于各种相互关联的因素。我们认为在评估过程中考虑这些因素非常重要。这种考虑有许多实际意义，可以帮助从业者、设计者和机器用户跨越许多情境。通过考虑这些因素，可以改进人机系统的设计和测量，以及改善应对此类系统安全性和绩效下降的对策。

局限和后续工作

为了确保这个框架的可管理性和可验证性，本文没有包括可能影响人机系统的所有可能因素或因素之间可能存在的所有可能关系。然而，本文包括了适用于人机系统中大多数环境并且对人机系统具有最大已知影响的因素。此外，尽管该框架指导用户在评估人机系统的安全性和绩效时应该测量什么，但它并未针对所呈现的每个因素的测量方法类型提供具体建议。例如，这个框架没有说明因素应在什么时候被测量，或者应该如何测量因素。它仅仅说明了什么应该被测量，为什么这些因素是重要的，以及它们是如何相互关联的。

后续工作不仅应包括通过测量的方法对这些因素进行量化，还应包括对框架本身的全面验证。具体而言，通过元分析和其他经验方法对该框架进行量化会进一步微调该框架，同时也使研究人员更准确地将其用作指南。这一领域的其他工作包括创建一个工具箱，该工具箱汇编了这里考虑的所有信息，以便设计人员和程序员可以轻松得到最适合评估其特定系统安全性和绩效的指标和测量技术。我们的文献分析为这一框架的发展提供了信息支持，通过收集相关文献(Oglesby et al., 2017)，我们在这方面迈出了第一步，但目前正在开展更多工作来创建这样一个工具箱。最后，应该探索这一框架在具体情况下的应用。尽管我们已经将框架设计得广泛而深远，确定如何在特定环境(例如航天)和任务(例如机器人操作与监测任务)中最好地利用和遵循该框架将使其更适用于具体情况。

考虑到这些后续工作，我们希望这个框架对人机系统的设计和评估有帮助。通过考虑传达安全性和绩效输出的变量的数量和复杂性，该框架不仅可以评估输出，还可以通过在机器的设计和实施中使用对策来防止失败。