人机交互技术概论

最新推荐文章于 2024-01-16 16:37:25 发布

junecau

最新推荐文章于 2024-01-16 16:37:25 发布

阅读量8.9k

点赞数 3

分类专栏：软件技术文章标签：语言情感图形 interface 任务生活

软件技术专栏收录该内容

60 篇文章 0 订阅

订阅专栏

人机交互技术概论

(2010-08-19 07:23:49)

标签：

it

分类：工作篇

人机交互技术(Human-Computer Interaction，HCI)致力于人与计算机的协调，旨在消融这两个智能系统间的通讯和对话界线，使得人与机器的信息交流便捷而通畅。计算机系统的人机交互是以用户界面(User Interface，UI)为中介的人与计算机间信息传递和转换过程：人向计算机传达交互意图 — 用户通过其侧重于多媒体信息接受的感觉通道(包括：视觉、听觉、触觉和嗅觉等)对用户界面中诸如语音、图形和图像等多媒体信息的感知，先利用逻辑思维和形象思维能力产生对交互意图的心理描述，再按用户界面对交互的输入要求使用其侧重于过程控制与信息输入的效应通道为(包括：手、嘴、眼、头、足及身体等)来实施交互行；计算机向人传递计算和反馈结果 — 它利用其感知机制从精确的用户界面框架结构中获取用户的交互信息，并完成获取交互行为信息的感知处理、判断用户交互意图的认知处理和回馈交互结果的响应处理等一系列计算过程，最终运用其输出机制以用户界面所定义的特定形式输出其计算结果。
从信息传递的角度来看，用户界面的任务是为人类的感觉和效应通道与计算机的感知和输出机制提供通信接口，计算机系统的人机交互包含互不可分的两类感知过程：一类是人对计算机所提供信息的感知过程。在这个过程中，计算机利用其计算能力和各种媒体处理技术将计算机可供交互的输入要求或交互处理结果的反馈以适当形式在用户界面上呈现给用户；而人类使用感觉通道(如：视觉和听觉)接受和理解用户界面所提供的各种信息。这种感知过程的关键是用户界面所呈现信息的形式和丰富程度，并部分与用户的心理因素及其认知能力相关，这决定了人机交互中计算机与人间通信的输出带宽。另一类是计算机对人及其所处环境的感知过程。在这个过程中，人类按照计算机所要求的输入事件使用效应通道(如：语音和动作等)在用户界面中输入交互操作和指令；计算机则通过对来自用户界面的用户交互媒介信号的处理和分析来获取和识别用户交互意图，并以适当形式在用户界面上呈现给用户。这种感知过程不仅取决于计算机感知和识别人和物及其检测用户情绪变化或用户个性等信息处理能力，而且取决于用户有意识地将交互意图“分解”和“组织”为计算机所特有输入事件过程中所付出的“认知努力”，这决定了人机交互中计算机与人间通信的输入带宽。此外，如果计算机是可以感知外部世界的机器，还存在两种特殊的感知：一种是计算机感知并传递人及其环境信息，人借助于计算机传递感知信息，它基本上不属于人机交互的感知，但可以作为人机交互感知的基础。例如：在视频会议、远程教学和远程医疗等系统中，计算机并不一定需要识别人的交互行为和信息，而只成为两人或多人之间的相互交流的媒介；另一种是人作为虚拟世界中的成员而从计算机中获得的感知，这种感知是人机交互的感知，而且人和计算机的感知地位是等同的，其感知信息的形态不仅内容丰富，而且可以是现实世界里所看不到的(例如：虚拟的场景、文本和语音等)。

从信息转换的角度来看，用户界面的作用是实现“用户认知空间”与“计算机信息处理空间”间信息的双向映射。由于人类的交互意图通常是一个涉及人的认知和行为因素的高维复杂信息，且这些信息是非精确的或模糊的；而计算机遵循线性信息表示和存储模式来表示和处理交互信息，所能捕获和处理的必须是形式化的精确信息，且其感知和处理结果不一定能够依从人的感知规则。两者间的差异决定了其双向映射实现的技术复杂性和方式多样性，因此，人机交互技术的任务就是要选择合适的映射方式来解决其技术实现的复杂性与用户交互的易用性问题。技术实现的复杂性主要体现在如何提升计算机感知和识别用户交互行为和状态并进而理解其交互意图；用户交互的易用性则表现为如何充分利用和协调人类的多个感觉和效应通道并进而降低其完成交互行为所需付出的“认知努力”。显然，一个良好的映射方式将会极大地提高人机交互的自然性和高效性。在人机交互技术发展历程中，人机交互的界面形式经历了手工作业、命令接口(作业控制语言及交互命令语言批处理)、(文本)菜单到多通道、多媒体人机交互和虚拟现实系统；人机交互的信息载体经历了以文本和符号为主字符用户界面(Character UI)、以二维图形为主的图形用户界面(Graphic UI)、兼顾视听感知的多媒体用户界面(Media UI)及综合运用多种感觉(包括触觉等)的虚拟现实系统(VR：Virtual Reality)；人机交互的信息维度从一维(主要指文本流)、二维(主要是利用色彩、形状、纹理等维度信息的二维图形技术)、三维(主要是三维图形技术，但图形显示仍以二维平面为主)向多维空间(利用人的多个感觉通道和效应通道的信息)发展，计算机与用户间的通信带宽不断提高。就其技术机理本质而言，这种发展蕴涵着对人机交互中两个主体不同侧重点的映射方式演化：

一种是以机器为中心的受限方式。这种方式强调将计算机的信息处理需求有效地呈现给用户，为用户提供一个形式化、半双工、串行的低维度信息展现和操作界面，主要表现在两个方面：一是人的交互需基于离散事件，用户界面等同于一个解释器，它接受事件输入并反馈计算机处理的结果，在此过程中，多维信息矢量被压缩为一个低维矢量，形成一个串行的输入流；二是人的交互必须基于精确交互：用户在交互中需要把意图按模型要求“分解”并“组织”为计算机所特有的输入事件，以完全说明用户交互目的和意度。用户必须面对机器操作定义的限制并付出较多的认知努力来使用计算机。从用户角度来看，这种方式支持的是受限人机交互(Formal HCI)，用户需饱受命令记忆和新功能学习之苦。例如，用户通过使用鼠标、键盘和显示器来与传统的桌面计算机进行交互时，与计算机及其上运行软件间的交互存在着“受限的”交互次序：完成特定序列的操作来创建Word文档、输入文本并将其打印，等等。这种方式的实现关键在于计算机及其软件处理能力展示的有效性和合理性及用户操作的简便性和易记忆程度，具体表现为两个方面的问题：一是如何充分而有效地展示计算机及其软件的处理能力，即：如何定义操作及其布局，如：弹出菜单、下拉菜单、分层菜单等；二是如何让用户方便地使用和记忆，即：用户采用何种方式进行操作，如：命令语言、文字菜单和图标点击，等等。显然这种方式限制了人机间的通信带宽，使得既不能有效地利用当今计算机的强大计算和处理能力，也给用户使用电脑有诸多不便。

传统用户界面都是采用了这种映射方式。它主要包括三大类：

(1). 命令语言交互(Command HCI)：这种人机交互始于联机终端的出现，用户与计算机间借助一种双方都能理解的语言进行对话。根据语言特点可分为：① 形式语言。这是一种人工语言，特点是简洁、严密、高效，如：应用于数学、化学、音乐、舞蹈等各领域的特殊语言，计算机语言则不仅是操纵计算机的语言，而且是处理语言的语言；② 自然语言。特点是具有多义性、微妙、丰富。③ 类自然语言。这是计算机语言的一种特例，命令语言的典型形式是动词后面接一个名词宾语，即：“动词+宾语”结构，二者都可带有限定词或量词。命令语言可以具有非常简单的形式，也可有非常复杂的语法。它要求惊人的记忆和大量的训练，且容易出错，但具有灵活和高效的特点，适合于专业人员使用。

(2). 图形交互(Graphic HCI)：图形用户界面(Graphics UI，GUI)是当前人机交互的主流，成熟的商品化系统有Apple的Macintosh、IBM的PM(Presentation Manager)、Microsoft的Windows和运行于Unix环境的X-Window、OpenLook和OSF/Motif等。这种界面包含三个重要思想：① 桌面隐喻(Desktop Metaphor)，即在用户界面中用人们所熟悉的桌面上的物品来清楚地表现计算机可处理的能力；② WIMP(Windows、Icons、Menu and Pointer)是组成图形用户界面的基本单元，以可重叠多窗口管理的窗口管理系统为核心，使用键盘和鼠标器作为输入设备，并广泛采用事件驱动(Event-Driven)技术；③ 直接操作及所见即所得(What You See is What You Get)的界面，交互过程极大地依赖用户视觉和手动控制的参与，具有强烈的直接操作特点。菜单(Menu)本身与图形人机交互并没有必然联系，在图形用户界面出现前，字符型菜单已经在用户界面中得到了广泛应用。但图形人机交互中菜单的表现形式比字符人机交互更为丰富，在菜单项中可以显示不同的字体、图标甚至产生三维效果，同时，还可以诸如层叠式(Hierarchy)、弹出式(PopUp)、下拉式(PullDown)和滚动式(scrolling)及其组合等多种形式出现，菜单式人机交互与命令语言人机交互相比，用户只需确认而不需回忆系统命令，从而大大降低记忆负荷，其缺点是灵活性和效率较差，可能不适合于专家用户。图形人机交互具有一定的文化和语言独立性，并可提高视觉目标搜索的效率；其主要缺点是需要占用较多的屏幕空间，并且难以表达和支持非空间性的抽象信息的交互。

(3). 直接操纵(Direct-manipulation HCI)：直接操纵更多地借助物理的、空间的或形象的表示，而不是单纯的文字或数字表示。前者已为心理学证明有利于“问题解决”和“学习”。视觉的、形象的(艺术的、右脑的、整体的、直觉的)人机交互对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的人机交互是一个挑战。直接操纵人机交互的操纵模式采用“宾语+动词”结构，Windows 95设计者称之为“以文档为中心”，用户最终关心的是其欲控制和操作的对象，即：只关心任务语义，而不用过多为计算机语义和句法而分心。对于大量物理、几何空间及形象的任务，直接操纵表现出巨大的优越性，但它在抽象而复杂的应用中具有局限性。对于用户界面设计者来说，图形的设计比较因难，需大量测试和实验；而复杂和抽象语义的表示比较困难，不容易实现交互与应用程序的独立设计。

另一种是以用户为中心的非受限方式。这种方式强调将对人类自然能力(尤其交流、运动和感知能力)与计算设备及其感知和推理结合起来，通过采用多种模态(Multimodal)感知人类的自然行为，并以易理解的多媒体(Multimedia)形式实现多通道(Multichannel)通信，建立“以人为中心”的感知用户界面(Perceptive User Interface，PUI)[10]。这种界面旨在充分使用人类诸如语音、手势、视线及头部跟踪等多个感觉和效应通道，并使之可选择地并行和协作来实现多通道、非精确、高带宽、高效及不限制地点的人机通信[11]，以拓展人机间信息通信的“带宽”，减少人类的交互认知努力，提高人机交互的自然性和高效性。从用户角度来看，这种方式支持的是非受限人机交互(Informal HCI)[12][13]，其主要出发点是借助于媒体感知技术获取并理解用户动作、行为、习惯、偏好及其它相关交互信息，来缓解以至于消除计算机和用户对交互意图的认识和描述存在的精确信息(人机系统的内部表示)和非精确信息(人机系统的外部表示)间的“鸿沟”；其实现的关键在于计算设备对人的动作和行为识别的有效性，因此，支持这种交互方式的用户界面又称为基于识别的用户界面(Recognition-based User Interface)。

这种方式的用户界面则代表着人机交互技术的发展方向，体现了对人的因素的重视，标志着人机交互技术从“人适应计算机”向“计算机不断地适应人”方向发展，就是要给用户“充分的自由”，使得人类不再需要按机器的要求扭曲自己最自然的思维和行为方式，而可以像在电脑出现前人类那样自由地工作和生活。传统的界面事实上成为隔离物质世界和信息世界之间的屏障，虚拟现实、网络计算、智能代理和软件机器人、计算机支持的协同工作等技术的应用，将实现“虚物实化”和“实物虚化”，消除物理对象和抽象对象、输入装置和输出装置在交互空间中的差别，并为人提供多感觉通道的自然临境体验；语音及文字识别和自然语言理解等言语计算，手写体和手绘草图识别等笔式计算及手势和表情识别、视觉-目标拾取认知技术等视觉计算等技术的不断发展和完善，将不断提高人机交互的智能化程度，使机器能够根据上下文及使用者的特点主动识别人的身体姿态、手势、语音和表情等各种自然行为，进而判断出人的意图。同时，机器的功能齐全、高效，既适于人的操作使用，也能满足人的审美和认知需要，机器的操控和使用将更加符合人的习惯，并具备听、看和说的能力，人可以语言、文字、图像、手势、表情等自然方式与机器打交道，恰如与他人交流一样自然。因此，用户界面是能模拟多种智能和真实环境的虚拟空间，人们能够在任何时间、任何地点与任何需要的环境(包括人)以最自然和“身临其境”的方式来完成所需要完成的工作；实现“无形而又无处不在，有形而又自然和谐”的普适交互(Ubiquitous/Pervasive HCI)模式，这种方式的特性体现在以下三个方面：

• 以用户为中心(Human-Centered)：以用户对人机交互的需求变化为出发点，使人机交互的外在形式和内部机制能符合不同用户的需要。人类的交互行为是自然的，用户将可利用语音、手势、笔划等自然方式，不受地点限制地与计算机进行交互，既能满足用户个性化的需要，又使得用户不脱离自然社会关系(包括社会经济环境和人类沟通交流)。

• 多模态(Multimodal)交互：充分利用人类多种感觉和效应通道的互补特性，并使之可选择地、充分地并行和协作来捕捉用户的交互意图，从而增进用户交互的自然性。模态(modal)和通道(Channel)间的联系和区别主要在于：人类通过视觉、听觉、触觉、味觉和嗅觉这五种感官的信息发送和接收来实现与世界交互的，一种模态对应一种官能；而通道是指信息传递的过程或途径。在人机交互应用中，通道描述一种交互技术，这种技术可基于某种特殊设备，如：键盘或鼠标，也可基于某种特殊行为，如口语、书面语或手势。如：命令语言用户界面中的每个命令都会使用视觉和触觉等多种模态；而图形用户交互既使用了视觉和触觉等多种模态，又用到了诸如键盘、鼠标和声音及图像等多种通道。多模态人机交互是使用同等方式将两种或两种以上输入模态相结合的技术，其重点是将基于诸如语音识别、笔形手势识别、计算机视觉等传感识别的输入技术集成到用户界面中。也就是说，多模态人机交互使用多种模态来实现多种通道通信。使用多种模态生成单独的通道，如：利用视觉和声音进行三维用户定位，属多传感器融合(Multisensor Fusion)；类似地，使用一种模态生成多种通道，如：左手鼠标指示，右手鼠标选择，则属于多通道或多设备(Multichannel or multi-device)人机交互。

• 多媒体感知((Multimdia Perceptive)：机器利用其感知及推理能力对来自用户感觉和效应通道的交互信号进行识别、集成和协调，并获取用户动作和行为习惯、偏好及其它相关信息，并以人类易理解的多媒体信息方式为用户提供输出信息，从而提供不受时空限制而又效能最大化的个性化计算服务。这种人机交互方式的双向信息流动是以多媒体感知和处理为核心的：用户通过其感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形和图像等多媒体信息，人到机(Human to Compute)信息流动是多媒体信息的获取及识别过程；计算机经过处理的信息需要以文本、语音、图形和图像等用户理解概念所需的多媒体信息形式展现出来，机到人(Computer to Human)的信息展流动是多媒体信息的合成和呈现过程。

自Weiser博士提出普适计算(Ubiquitous/Pervasive Computing)以来，人类开始向未来计算探索的进程，也催生了以网格计算(Grid Computing)和云计算(Cloud Computing)为代表的计算分布化(Distribution)、以嵌入式计算(Embed Computing)为代表的计算透明化(Transparent)、以虚拟现实(Virtual Reality)和可穿戴计算机(Wearable Computer)为代表的计算机系统拟人化(Personate)和有形化(Tangible)、以手持电脑(PDA)和智能手机(Smart Phone)为代表的计算机系统微型化(Micromation)和随身化(Mobile)及以智能空间(Smart Space)和环境智能(Ambient Intelligence)为代表的计算机系统嵌入化(Embeded)和无形化(Invisible)等众多新型计算技术，推动着“机箱时代”迈向一个崭新时代：计算设备将从人类视野中“消失”，那些装在机箱中的声音、视频和通信等将“游荡”于我们周围环境中而变得“无处不在”。这个时代具有两个重要特征：一方面，小型化嵌入式计算设备将使得人类生活的自然环境“具有”计算能力，它能自主感知人的存在，并在人类需要时出现和对其行为作出反应；另一方面，计算将日常生活化，能帮助人类安排、构造和控制日常生活，人类将能享受的计算服务，人类能以最自然的方式、在任何时间、任何地点、通过任何设备从环境中“无意识地”获取“有感觉”的计算资源和计算服务。概括地讲，在这个时代，人类生活将片刻离不开机器，人与机器间的交流更加自然和没有阻碍，人和计算间将是非侵入且不可见的交互，现实世界就成为用户界面，用户只需运用其日常技能来操作和使用计算设备，而不再关注交互媒体形式，也无需特定的用户界面，即：Idea Interface is no interface。这既对人机交互技术提出了更高的要求和新的挑战，也为人机交互技术的发展注入了新的动力，因此，自然、高效、无障碍的新型人机交互技术成为该领域发展方向和研究热点。

新型人机交互技术的最主要特性就在于用户交互的“非受限性(Informaity)”：机器给人以最小的限制并对人的各种动作做出反应，人是主动参与者，可以最大的自由度操作机器，如日常生活中人与人间的交流一样自然、高效和无障碍。这种人机交互技术强调两个关键特征：一是交互隐含性。理想的人机交互应当使用户把所有注意力集中于完成任务而无需为交互操作分心，且应允许使用模糊表达手段来避免不必要的认识负荷，有利于提高交互活动的自然性和高效性。传统用户界面都是等待用户输入命令才开始采取行动，而新颖人机交互技术的用户界面则应是积极地感觉和理解世界，并让用户在各个层次上根据目标和已有知识采取行动，并以充分性代替精确性。理想地，这是一个使用“被动”或“非侵入性”感知的“主动”交互方式，无需用户显式说明交互成分，仅在交互过程中隐含地表现而允许非精确的交互，如：用户视线自然地落在所感兴趣的对象上；用户的手自然地握住被操纵的目标；等等。二是交互多模态性和双向性。允许使用多种感知模态(如：视觉、听觉、触觉等)或多个感觉和效应通道，突破了模态和鼠标键盘显示器通信通道的限制，使用连续形式和并行形式在内的多种模态。尽管感觉通道侧重于多媒体信息的接受，效应通道侧重于交互控制与信息输入，但两者是密不可分、相互配合：只用一种通道不能充分表达意图，就需要其它通道信息辅助。有时，使用辅助通道仅为增强表达力，否则，就必须允许充分地并行和协作的通道配合关系。此外，人的感觉和效应通道通常具有双向性特点，如：视觉可看又可注视；手可控制又可触及；等，新颖人机交互技术让用户避免生硬、频繁或耗时的通道切换，从而提高自然性和效率。如：视线跟踪系统可促成视觉交互双向性；听觉通道在利用三维听觉定位器实现交互双向性；等等。

新型人机交互技术的核心问题在于如何确保计算设备对人的动作和行为识别的有效性并实现人机的和谐共处。计算设备及其传感器是透明和被动的，但可以主动感知人类相关通信通道并输出人类可理解的结果。这就需要不同类型和层面技术的集成，并随着关键维度或特征发生变化，包括：输入模态的数目和类型；通信通道的数目和类型；使用并行模式、串行模式或同时使用并行和串行模式的能力；识别模式的大小和类型；传感器和通道的集成方法及支持的应用种类，等等。依据充分利用人类感觉和效应通道并使得人机交互更加自然的目标，新型人机交互的关键技术主要集中在以下几个方面：

(1). 支持语音交互(Speech-Based HCI)的言语计算(Speech Computing)：语音是人类一种重要而灵活的通信模态，言语交互的核心是语音识别，其任务就是利用语音学和语言学知识，先对语音信号进行基于信号特征的模式分类(这是语音信号处理的范畴)得到拼音串，再利用语言学知识对拼音串进一步处理，得到一个符合语法和语义的句子。简单地说，语音识别就是让计算机能听懂人说话，将人说的话转换成计算机文本。

(2). 支持笔迹交互(Pen-Based/Calligraphic HCI)的笔迹计算(Calligraphic Computing)：笔迹交互是通过计算机软硬件技术和相关领域的研究，模拟人类“笔录纸现”这一日常技能的一种人机交互方式。在这种用户界面中，用户借助鼠标、笔迹交互器及触摸屏等设备用手自由地书写或绘制各种文字和图形，计算机通过对这些输入对象的识别和理解获得执行某种任务所需要的信息。它充分利用书写的自然性和墨水丰富的表达能力，从而拓宽了人机交互的频带，使人们通过笔迹交互自然地使用计算机的高性能计算能力：从计算机处理角度看，笔迹交互可以在一个或多个连续的笔画中自然地提交计算任务所需要的命令和参数；从人机交互角度来看，它通过将用户的交互意图映射为由压力、方向、位置和旋转等信息共同构成的多维矢量序列[11][2]；从认知心理学角度看，用户的交互意图通过几个效应和感知通道提交。与言语交互相比，笔迹交互以视觉形象表达和传递概念，既有抽象、隐喻等特点，还具有形象、直观等特征，易于理解和记忆，更适于推论和构思；与传统图形图像工具相比，它具有自然、简便，可表达不完备模糊概念，拥有强大的信息表达能力，有利于创造性思想的快速表达、抽象思维的外化和自然交流。

(3). 支持视觉交互(Vision-based HCI)的视觉计算(Vision Computing)：在人类日常面对面交互中，除使用语音和文字外，还可利用身体各部位的姿态和动作(即所谓身体语言)来表达自己的意思。视觉和言语是联合表达、相互补充的通道，诸如脸部表情、注视焦点、肢体动作及其它活动等行为线索能为交流提供相关上下文信息，这些信息不仅能加强语音的表达能力，还能起到语音交互所不能起到的作用，并影响交谈的内容和进程，如：头部动作可能是“否定”或“肯定”的信号，脸部表情可能是“无奈”或“赞许”的表式，注视角度可能可消除“这边”或“那边”等语言中指代不明的问题。视觉交互技术(Vision-based Interaction)的目标就是在人机交互中采用计算机视觉作为有效的输入模态，探测、定位、跟踪和识别用户交互中有价值的行为视觉线索，进而预测和理解用户交互意图并做出响应。这种技术可以支持人机交互中的一系列的功能，如：人脸检测、定位和识别(确定场景中的人数、位置和身份等)；头和脸部的跟踪(用户的头部、脸部的位置和方向)；脸部表情分析(用户表情状态：微笑、大笑、皱眉、说话、困乏等)；视听语音识别(协助判断用户说话内容)；眼睛注视跟踪(用户的眼睛朝向)；身体跟踪(用户身体的位置，身体的动作等)；手跟踪(确定用户手的位置，二维或三维模型、手的结构等)；步态识别(识别人的走路/跑步的风格)；姿势、手势和活动识别等，最终实现人与机器的“行为交互(Behaviour Interaction)”。

(4). 支持情感交互(Affective-based HCI)的情感计算(Affective Computing)：众所周知，人类相互之间的沟通与交流是自然而富有感情的，计算机没有情感能力，就很难指望它具有类似人一样的智能，也很难期望人机交互真正实现和谐与自然。因此，人们在与计算机交互的过程中，也期望计算机具有情感和自然和谐的交互能力[14]。而情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力，它是通过各种传感器获取由人的情感所引起的表情及其生理变化信号，利用“情感模型”对这些信号进行识别，从而理解人的情感并做出适当的响应。其重点就在于创建一个能感知、识别和理解人类情感的能力，并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统[14]。拥有情感能力的计算机能够对人类的情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并有效减轻人们使用电脑的挫败感，甚至帮助人们便于理解自己和他人的情感世界。情感交互还能帮助我们增加使用设备的安全性、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化。

(5). 支持可穿戴交互(Wearable HCI)的穿戴计算(Wearable Computing)：可穿戴计算机是一类超微型、可穿戴、人机“最佳结合与协同”的移动信息系统。可穿戴计算机在体系结构、功能、形态、用途及使用方式上与现在流行的笔记本电脑、掌上电脑(HPC)、个人数字助理(PDA)等移动计算装置迥然不同：可穿戴计算机不只是将计算机微型化和穿戴在身上，它还实现了人机的紧密结合，使人脑得到“直接”和有效的扩充与延伸，增强了人的智能。这种交互方式由微型的、附在人体上的计算机系统来实现，该系统总是处在工作、待用和可存取状态，使人的感知能力得以增强，并主动感知穿戴者的状况、环境和需求，自主地做出适当响应，从而弱化了“人操作机器”，而强化了“机器辅助人”。

上述技术都是利用人与人及人与世界间口头或非口头的交互方式，使用各种模态来实现多通道通信，本质上都属于支持感知交互的感知计算(Sentient Computing)。

(6). 支持虚拟交互(VR HCI)的虚拟现实(Virtual Reality)：虚拟现实的基本原理是采用摄像或扫描的手段(而不是传统的建模手段)来创建虚拟环境中的事件和对象，生成一个逼真的三维视觉、听觉、触觉或嗅觉等感觉世界，让用户可以从自己的视点出发，利用自然的技能和某些设备对这一生成的虚拟世界客体进行浏览和交互考察。其特点包括：逼真的感觉(视觉、听觉、触觉、嗅觉等)、自然的交互(运动、姿势、语言、身体跟踪等)、个人的视点(用户的眼、耳、身所感到的感觉信息)和迅速的响应(感觉信息根据视点变化和用户输入及时更新)。这些特点可概括为三大特征：沉浸感(Iimmersion)：是指用户作为主角存在于虚拟环境中的真实程度；交互性(Iinteraction)：指用户对虚拟环境内的物体的可操作程度和从环境得到反馈的自然程度(包括实时性)；想象力(Imagination )：指用户沉浸在多维信息空间中，依靠自己的感知和认知能力全方位地获取知识，发挥主观能动性，寻求解答，形成新的概念。

(7). 支持人脑交互(Brain-Computer Interaction)的脑计算(Brain Computing)：最理想的人机交互形式是直接将计算机与用户思想和目的进行连接，无需再包括任何类型的物理动作或解释，实现“Your wish is my command”的交互模式[15]。虽然在可预见的未来这种思想不太可能实现，但对“人脑计算机界面(Brain-Computer Interface，BCI)”的初步研究可能是迈向这个方向的一步，它试图通过测量头皮或者大脑皮层的电信号来感知用户相关的大脑活动，从而获取命令或控制参数。人脑交互不是简单的“思想读取”或“偷听”大脑，而是通过监听大脑行为决定一个人的想法和目的，是一种新的大脑输出通道，一个可能需要训练和掌握技巧的通道。

当前，采用第一种方式的图形用户界面仍是应用的主流，尤其是以超文本标记语言(HTML)及超文本传输协议(HTTP)为基础的网络浏览器和搜索引擎的桌面网络用户界面最为普遍，包含了适应不同带宽(从高速视频点播到低速移动电话)、不同尺寸(从手表、掌上电脑到墙壁大小)的各种用户界面；而采用第二种方式的语音、手写等易用而方便的界面也正逐步普及，多通道、多媒体的自然、高效、智能化用户界面正得到快速发展和应用。

http://www.sciencenet.cn/m/user_content.aspx?id=332668

人机一体

——可穿戴计算中的人机交互技术

中科院软件所智能工程实验室关志伟戴国忠马翠霞

人机交互方式正经历着一场重大的变革，无处不在的计算使人与计算机之间产生了一种新的交互范式，以满足人们不断增加的对信息访问和计算功能的需求。对于移动计算、可穿戴计算及无处不在的计算的研究者来说，研究重点之一就是试图打破传统的基于桌面的计算模式，使计算服务设备能和使用者一样灵活。要使用户放弃传统的静态桌面范式，不能强迫用户去寻找和发现新的与计算机交互的方式，而要通过对上下文感知的知识的分析，提供一种能够对用户的位置和服务做出一定反应的交互界面，使计算机从被动服务方式转为主动服务方式，使人机关系更加自然和谐。

穿戴计算技术打破了传统的交互模式，使人和计算机成为一体，提高了人的整体交互和计算能力。它提供了一种无处不在的计算和无时不有的交互方式。穿戴计算系统的硬件在应用的促进下得到了长足的发展，同时，其特定的服务方式也要求在软件结构方面有一种动态的重配置结构和合理的交互计算模式，以适应因移动灵活性带来的信息变化。

计算设备的缩小和可移动性、信息和任务的随时随地性，使交互计算模式向移动性、可获取性、自然性和简洁性发展。相对于传统的交互方式，可穿戴计算机的交互方式对灵活性和实时性的要求比较高，简洁的交互操作也是必需的，同时，计算技术的可靠性和高效性也要提高。

交互设备的设计和可用性、交互界面的自然性和有效性、交互信息的可获取和存储、外界信息感知和上下文增强的交互范式、多种交互计算设备之间的协同交互技术等，将是可穿戴计算技术研究和应用中不可或缺的部分，对可穿戴计算技术的发展起着重要的作用。比如：基于人机功效学的交互设备和交互界面设计、基于生活经验和上下文感知的信息获取、可穿戴环境下的多通道交互计算模式等都对可穿戴交互计算的研究提出了新的挑战。

可穿戴计算中的人机交互技术应具有以下三个特征：

可视性(visibility) 人能感觉到虚拟人的存在；
可感知性(awareness) 虚拟人能感觉到人的存在；
可说明性 (accountability) 将人人交互的原则、规则、规范等变成数字系统的有效机制。

将交互计算的环境从传统的桌面式向可穿戴式方向转变，其计算设备和计算模式也发生了相应的变化。作为人获得信息和传递信息的渠道，人机交互也随之发生了变化。应用驱动的无处不在计算的研究推动了以下三种交互主题的发展，即自然的多通道界面、上下文感知应用、经验的自动捕捉及访问。

自然的多通道用户界面

多媒体技术引入了动画、音频、视频等动态媒体，大大地丰富了计算机表现信息的形式，拓宽了计算机输出的带宽，使用户可以交替或同时利用多个感觉通道，提高了用户对信息表现形式的选择和控制能力以及接受信息的效率。多媒体用户界面的人机交互虽然拓宽了计算机到用户的通信带宽，但用户却依然要使用键盘和鼠标等常规的输入设备进行输入，从用户到计算机的通信带宽并没有提高，输入输出极不平衡，成为当今人机交互的瓶颈。

自然的多通道用户界面是指用户使用自然的交互方式，如语音、手势、眼神、表情、唇动等，与计算机系统进行协同工作，它从根本上改变了传统交互手段的局限性，以人际之间的交互方式与计算机进行交流。其中，人和机器都被看成是信息交流的主动参与者，输入通道之间有串行/并行、互补/独立等多种方式，人与机器交互向人与人交互的方式靠拢，大幅度地提高了交互的自然性和高效性，这将是未来用户界面的主流形式。

人机交互技术概论

目前，语音识别技术和具有触觉反馈的笔输入技术日趋成熟，语音和笔交互（包括文字）是人们进行交互的主要手段，基于具有触觉反馈的笔输入和语音识别相结合的多通道用户界面能够极大地改变用户输入的方式，提高用户输入的效率。

多通道用户界面的主要特点是：同时使用多个装置，利用多个感觉通道支持多个用户；支持高带宽的连续输入，如视线跟踪、手势识别、语音识别。

上下文感知应用

上下文感知是通过得到外部物理空间和计算空间的信息，更好地适应人的行为和意图的一种方法。上下文感知的最早形式是感知简单的上下文信息，其中包括位置感知和身份感知。最新的研究将上下文定义为五个“W”，即Who（人物）、What（行为）、Where（地点）、When（时间）和Why（原因）。通过对人物的上下文感知，可实现用户的确认以及对特定人历史任务的回溯和跟踪;通过对行为的上下文感知，可以帮助计算机系统感知和辨识用户行为的过程，提高系统对用户行为的认知和系统反馈的生成;通过对地点的感知，可以获知用户在物理空间中的位置，从而帮助系统确定特定物理空间中用户任务的特点和需求;通过对时间的感知，用户和系统能够掌握历史的交互任务，同时可以确定用户在交互过程中时间的流逝，大部分上下文感知系统都部分地基于时间尺度;通过对原因的感知和行为感知的结合，可以进一步获知用户行为的目的、意图以及对于物理空间和计算空间的影响。

上下文感知计算技术的应用，使系统能够主动为用户提供高效率的服务，同时提供增强现实的功能，将虚拟设计和现实世界的交互提高到一个新的境界，提出一种能够对用户的位置和服务做出一定反应的交互界面，使计算机从一种被动服务方式转为主动服务方式，而用户和计算机间的交互则转为一种隐式交互模式。深入到日常生活中的计算设备并不会增加物理、认知和社会方面的负担，而是使人机关系更加自然和谐。

上下文感知的机制可以通过以下方式实现：

(1) 收集各方面的信息，包括用户物理信息或情感状态；
    (2) 分析信息，处理成为一个独立的信息变量或与历史信息相结合；
    (3) 对信息进行分析，基于分析结果产生主动行为；
    (4) 重复(1)，基于原来的迭代产生一些自适应能力。

基于上下文感知的计算服务系统充分利用用户变化的上下文关系来提供主动服务，完全打破了传统的静态、被动的桌面交互模式。在这些上下文感知信息中，位置感知的应用最广泛，例如，Cyberguide系统能自动根据用户的位置判断用户感兴趣的对象，并给出相关的信息;根据用户的位置移动并及时更新服务；Cyberdesk系统则是基于信息上下文感知的独立服务的自动集成服务系统，它将各项相关的服务自动提供给用户，既提高了用户的操作能力，又降低了对工具开发者的要求。除此之外，上下文感知还包括各种社会信息及情感感知。

经验的自动获取和访问

这是通过对生活经验的捕捉和访问，实现增强现实的功能。增强现实功能能够减小虚拟世界和现实世界的差距，并且提供给用户对世界的更清晰的认识。目前大多数可穿戴计算机系统所采用的一般都是使用see-through技术或field-multiplexed技术的头盔式显示器，因此，可以有效地应用增强现实功能来辅助人与世界的交互。可穿戴计算机简单的文本覆盖模式可以被认为是较弱的增强现实功能，已有的应用证明这种方式也是增强日常世界信息最重要的方法之一。

可穿戴计算系统用于数据存储的一个典型应用群体就是学生，它能使学生的课堂笔记记得更加流畅和丰富。头盔式显示器的使用使学生不必将视线专注于他们所记录的文字，灵活的单手操作键盘比普通键盘噪音小且可在桌下使用，从而减少在课堂上对其他同学的干扰，并且记录方式具有私密性，其他人不会看到记录内容，同时可以极大地提高上课的效率。

在医学领域，医生在给病人看病时，由于各种原因，有时不能在病人面前立即记录下检查结果，事后易产生遗漏，影响对病情的诊断。而利用可穿戴式计算系统则可以解决上述问题。另外，如果将诊断设备嵌入到穿戴系统中，还可进一步提高诊断的准确率和减少人为错误的发生。

通过穿戴计算技术可以做到随时访问所需要的数据，当一些紧急情况发生时，穿戴计算机可以节省很多时间，如不必赶到电话机旁或工作的电脑旁。在军事领域，这种需求则更迫切，及时获得军事信息，并做出正确判断，这在军事作战时是很关键的。

穿戴计算

穿戴计算技术在一定程度上扩大了人机交互的范围，特定的交互任务和交互设备促进了对新的交互技术的研究。例如，在特定的方式和环境下，当手写和语音等交互设备都无法使用时，它可支持其他交互手段，如眼动操作等。可穿戴计算机使人机关系变得非常紧密，同时，由于各种设备是装备在人的身上，因此，它们安装的位置、形状、操作的便捷性等都要与人的自然属性密切结合，形成一个综合性的和谐的人机界面。这对新一代人机交互的研究提出了新的挑战。