User Modeling用户建模-CSDN博客

本文链接：https://blog.csdn.net/qq_40427180/article/details/88776562

背景介绍

用户建模的概念几乎同时起源于人机交互。在他们的开创性著作“人机交互心理 ”中，Card，Moran和Newell提出了Model Human Processor，它可能仍然是人机交互中最受欢迎的用户模型。然而，在第二次世界大战期间，在设计新的军事硬件的背景下，模拟运营商的性能以优化硬件使用的想法变得重要。然后，计算认知心理学提供了急需的视觉模型，神经元，快速瞄准运动等。随着数字电子产品的出现，以及最近的万维网，建模用户变得更加复杂。实际上，现在很难标准化用户模型的通用定义，以便在用户建模的旗帜下适应所有研究。
在本章中，我们将其运算符的任何机器可读表示视为用户模型，我们将在下一节中总结有关用户建模的冲突问题。本章的后续章节总结了建模认知，感知和运动行为方面的最新技术，并突出了用户建模的应用，以便以设备和应用程序无关的方式促进人机交互。最后，我们讨论了欧盟委员会和国际电信联盟（ITU）最近为不同应用的用户建模标准化所做的努力。
以下部分介绍了一些在HCI中用作用户模型或模拟用户表现，知识或能力的代表性作品。我们遵循模型人类处理器的概念，并将模型分为三个主要类别：认知，感知和运动模型。

1、建模认知

认知有许多不精确和难以衡量的方面。如前一节所述，认知模型的目标从预测到探索。预测模型作为通过估计任务完成时间来评估用户界面的快速方式是有吸引力的，但是理解认知的现代思维看到了理论和认知模型的不同角色集，其中权力不是预测本身而是其解释功率。对感兴趣的现象的描述使我们能够获得理解的概念框架（Halverson，2002）。单独预测或探索认知通常是不够的，我们需要一套不同的模型来考虑环境。以下部分描述了一组认知模型，根据其预期应用对其进行分类，

2、预测模型：模型人类处理器和GOMS模型

模型人体处理器是应用于HCI的最早模型之一。它根据输入，输出，存储和处理对人工信息处理进行建模。该模型分为三个子系统，感知，认知和运动。这些模型的两个实际适用版本是击键级别模型（KLM）和GOMS（目标，操作员，方法和选择规则），它们可以预测无差错的专家绩效。GOMS模型的灵感来自Newell开发的GPS系统（Newell＆Simon，1995）。它假定人们通过选择一种方法来与计算机交互以实现目标，该方法由一系列基本操作组成。GOMS模型使设计人员能够在执行任务时通过将任务分解为目标来模拟用户的操作序列。子目标（John＆Kieras，1996）。原始GOMS模型有许多变体。击键水平模型（KLM）（Card，Moran＆Newell，1983）通过消除目标，方法和选择规则简化了GOMS模型，只留下了六个原始算子。他们是：

• 按键;
• 将指点设备移动到特定位置;
• 制作指针拖动动作;
• 进行心理准备;
• 将手移动到适当的位置
• 等待计算机执行命令。

这六项行动的持续时间是根据经验确定的。任务完成时间是通过完成任务所必须进行的每种操作的次数来预测的。

Kieras 开发了GOMS模型的结构化语言表示，称为NGOMSL。最初，它试图以更高的符号表示认知复杂性理论（CCT）模型（Johnson，1992）的内容。认知复杂性理论是由Bovair，Kieras和Polson（1990）开发的基于规则的系统，用于对交互式计算机系统的用户的知识进行建模。在NGOMSL中，原始GOMS模型的方法用CCT模型的生产规则表示。Kieras Wood，Abotel和Hornof（1995）还开发了一个建模工具GLEAN（GOMS语言评估和分析）以执行NGOMSL。它可以模拟用户与执行任务的模拟设备之间的交互。

John和Kieras（1996）提出了一个新版本的GOMS模型，称为CPMGOMS，用于探索用户行为的并行性。该模型将任务分解为基本操作的活动网络（而不是串行流）（由KLM定义），并基于关键路径方法预测任务完成时间。认知复杂性理论（CCT）使用与GOMS类似的目标结构概念，将其表征为长期记忆中的任务，并在任务执行期间进行访问。这引入了计算机接口重构任务的方式以及对用户的需求的概念。非数字世界中熟悉的任务重组是HCI设计中的一个重要问题，因为用户将其高级设备独立任务模型带入交互。CCT的复杂性被认为可以通过其绩效所需的生产规则的数量来衡量。它是根据用户关于如何执行单个任务的概念所需的产品数量来衡量的。然后将其与在特定设备上执行任务所需的实际规则数进行比较。
许多已建立的预测模型假设动机持续存在，用户对任务完成的承诺仅取决于他们找到成功完成的途径的能力，从而限制了预测模型的范围。下一节介绍了一组试图模拟人类认知的理论，并用于解释人机交互。

3、解释模型 认知架构认知架构是一类旨在模拟人类认知各个方面的模型。Allen Newell开发了SOAR（状态算子和结果）架构作为他统一的认知理论的可能候选者。根据Newell和Johnson-Laird可以通过符号系统解释环境中不同刺激的各种人类反应函数。

因此，SOAR系统将人类认知建模为基于规则的系统，任何任务都通过在问题空间中搜索来执行。SOAR系统的核心是它的分块机制。Chunking是“一种转变基于目标的方式将问题解决为可访问的长期记忆（制作）”。它以下列方式运作。在解决问题的任务期间，每当系统无法确定单个操作员来完成任务，从而无法移动到新状态时，就会发生僵局。僵局模拟了用户没有足够的知识来执行任务的情况。在这个阶段，SOAR探索所有可能的操作员并选择使其最接近目标的操作员。然后它学会了一个可以在将来解决类似情况的规则。莱尔德及其同事通过分块机制成功地解释了实践的幂律。

然而，人类认知的某些方面（如感知，识别，运动行为）可以通过联结主义方法而不是象征方法来更好地解释。人们认为，最初有意识的过程控制着我们对任何情况的反应，而经过充分的实践，自动过程负责同一组反应。将所有认知过程分类为合成或分析过程。合成操作涉及低级别，不可分解的，无意识，感性任务。相比之下，分析操作意味着高级，有意识，可分解，推理任务。从建模的角度来看，合成操作可以映射到连接模型，而分析操作对应于符号模型。

考虑到这些事实，ACT-R系统（思想的自适应控制 - 理性，Anderson和Lebiere）不遵循SOAR的纯符号建模策略; 相反，它是作为混合模型开发的，它具有符号和子符号级别的处理。在符号层面，ACT-R作为一个规则系统运行。它将长期记忆划分为声明性和程序性记忆。声明性存储器用于以“块”的形式存储事实，并且过程存储器存储生产规则。系统通过从生产存储器中触发适当的产品并从声明性存储器中检索相关事实来实现目标。然而，人类行为的可变性是在子符号水平上建模的。长期记忆被实现为语义网络。基于语义网络的节点和链接的激活值来计算规则之间的事实和冲突解决的检索时间。

EPIC（执行 - 过程/交互控制）架构在认知架构中包含单独的感知和运动行为模块。它主要集中在建模用户同时多任务性能的能力上。它还激发了ACT-R架构安装独立的感知和电机模块以及开发ACT-R / PM系统。在HCI中使用它们的几个例子是菜单搜索和图标搜索任务的建模。
CORE系统（基于约束的优化推理引擎）采用不同的方法来模拟认知。它不是基于规则的系统，而是将认知建模为一组约束和一个目标函数。约束是根据环境事件，任务和心理过程之间的关系来规定的。与其他系统不同，它不执行任务层次结构; 而是通过解决约束满足问题来获得预测。可以调整问题的目标函数以模拟人类行为的灵活性。存在其他认知架构（例如交互式认知子系统，Apex，DUAL，CLARION等），但它们尚未像先前讨论的系统那样广泛使用。

基于语法的模型另一种方法是使用语法模型，例如任务动作语法，它为计算机系统的界面语言建模内存。这假定任务知识结构保存在长期记忆中，并且成功的交互涉及将这些结构模型与接口处表示的任务结构联系起来。任务动作语法和任务动作语言以语法规则的形式模拟交互。
例如，任务操作语言模型：

• 终端符号操作;
• 通过一系列规则进行互动;
• 句子知识。

这种类型的建模对于比较不同的交互技术非常有用。但是，与性能相比，它们与用户的知识和能力模型更相关。环境模型上述模型关注个体认知和任务结构，或个人头脑和环境。这些模型没有考虑的是环境的作用。诺曼的行动理论（Norman，1988）将行动描述为用户之间的映射过程先前的任务知识和设备上的物理表示。这代表了环境主导行动的概念。该模型有七个阶段，从形成目标开始。接下来是形成意图，即为了实现目标必须采取的具体行动。接下来是动作序列的规范。这意味着扫描环境以寻找可以被识别为对期望动作有帮助的特征（或可供性）。执行操作遵循此操作。其余三个行动阶段共同是评估阶段。了解世界状况是对状态变化的初步认识。在下一阶段，“解释世界状况”，用户试图理解变化，因此，状态变化可能在某种程度上是意料之外的，但如果建议取得进展，那么它是令人满意的。如果理解，意外/不满意的变化可能有助于学习，因为它们可能表明未被发现的系统原理。

诺曼的行动模式提供了一种思想工具，支持理解环境主导行动的方式。它还意味着在不熟悉的环境中进行学习是通过将新遇到的环境特征与结构和程序任务知识等先验知识相结合，并使用对熟悉的名称和现实世界隐喻的识别来实现的。

Rasmussen提供技能，规则和知识（SRK）框架，这对于完成基于显示的交互的性质以及用户的内部资源与环境合成的方式非常有用。它区分基于技能，基于规则和基于知识的处理级别。基于技能的处理是自动无意识的动作执行，通常与执行熟悉任务的专家相关联。基于规则的处理需要使用if-then规则来指定操作的更多工作内存容量。基于知识的处理是先验经验不是可用资源的推理。可以有效地应用该框架在理解最终用户系统时，通过适当的隐喻，一致的布局和行为以及用户行为的系统反馈，可以快速获取规则库，从而可以影响应用于操作的技能基础。

其他值得注意的方法外部认知模型（Scaife＆Rogers）将认知理解为内部资源（在用户头部）与外部资源（显示，人工制品，一般环境特征）之间的相互作用。外部表征是根据“认知相互作用” 进行分析的。三个原则是这一点的基础。一种是计算卸载，其中良好的设计是最佳地减少其用户的认知努力的设计。

分布式认知既指个人与外部表征之间的知识资源的相互作用，也指社会分配，例如在群体工作环境中。这方面的一个例子是资源模型，它模拟信息结构和信息策略。
另一类模型将认知视为具体化。这些对认知的描述不是将认知与身体完全隔离，而是将认知描述为与身体有着千丝万缕的联系。这代表了我们对行为，推理和意义构成的分析的根本转变。这是一个相对欠发达的领域，适用于普适计算和共享认知空间等新技术。在该领域新应用的理论的一个例子是proxemics（Greenberg等），其中分析了人类行为和交互的空间方面。

4、视觉感知建模 多年来，人类视觉已经以多种方式进行了调查。格式塔心理学家在20世纪初开创了对感官信息处理机制的解释（Hampson＆Morris）。后来格式塔原则催生了自上而下或建构主义的视觉感知理论。根据这一理论，感官信息的处理受现有知识和期望的支配。另一方面，自下而上的理论家认为，通过自动和直接处理刺激来发生感知。考虑到这两种方法，目前的视觉感知模型包括自上而下和自下而上的机制。这也反映在最近的神经生理学实验结果中。

关于感知理论的知识帮助研究人员开发了视觉感知的计算模型。Marr的感知模型是该领域的先驱，其他大多数模型都遵循其组织。近年来，已经开发了大量模型（例如ACRONYM，PARVO，CAMERA等），这些模型也已经在计算机系统中实现。这些模型的工作原理基于的综合分析模型中提出的一般框架，也非常类似于Triesman的特征整合理论。
它主要包括以下三个步骤：
• 特征提取：顾名思义，在此步骤中，将分析图像以提取不同的特征，如颜色，边缘，形状和曲率。该步骤模拟大脑V1区域的神经处理。

• 感知分组：提取的特征主要基于不同的启发式或规则（例如，CAMERA系统中的接近度和包含规则，共线性规则，并行性和ACRONYM 系统中的终端）组合在一起。类似类型的感知分组发生在大脑的V2和V3区域。

• 对象识别：将已分组的要素与已知对象进行比较，并选择最接近的匹配作为输出。

在这三个步骤中，第一步模拟自下而上的关注理论，而后两步则由自上而下的理论指导。所有这些模型的目的是要认识到从背景画面对象，其中一些已被证明是成功的，在认识简单的物体（如机械仪表）。然而，他们在识别任意物体方面没有表现出如此出色的表现（Rosandich）。这些早期模型不能在详细的神经学水平上运作。Itti和Koch）提出了计算模型的综述，试图在神经学层面解释视觉。Itti纯粹的自下而上模型（Itti＆Koch）甚至在一些自然环境中工作，但大多数这些模型用于解释视觉的潜在现象（主要是自下而上的理论）而不是预测。作为预测模型的一个例子，VDP模型使用图像处理算法来预测不同亮度，对比度等级的视网膜灵敏度。Privitera和Stark也使用不同的图像处理算法来识别自然场景中的固定点; 然而，他们没有明确的模型来预测眼球运动轨迹。

他们在识别任意物体方面没有表现出如此出色的表现。这些早期模型不能在详细的神经学水平上运作。

Itti和Koch提出了计算模型的综述，试图在神经学层面解释视觉。 Itti纯粹的自下而上模型甚至在一些自然环境中工作，但大多数这些模型用于解释视觉的潜在现象（主要是自下而上的理论）而不是预测。作为预测模型的一个例子，VDP模型使用图像处理算法来预测不同水平的光学，对比度等的视网膜灵敏度。 Privitera和Stark也使用不同的图像处理算法来识别自然场景中的固定点;然而，他们没有明确的模型来预测眼球运动轨迹。

在人机交互领域，EPIC（Kieras＆Meyer，1990）和ACT-R认知架构已被用于开发用于菜单搜索和图标搜索任务的感知模型。 EPIC和ACT-R模型用于解释尼尔森搜索菜单项的实验结果，并发现用户以系统和随机的方式搜索菜单列表。 ACT-R模型还用于在图标搜索任务的背景下找出好图标的特征。然而，认知结构强调对人类认知进行建模，因此这些系统中的感知和运动模块并不像系统的其余部分那样发达。

EPIC和ACT-R / PM中感知模型的工作原理比早期通用的视觉计算模型更简单。这些模型不使用任何图像处理算法（Fleetwood＆Byrne，2002,2006; Hornof＆Kieras，1997）。目标对象的功能被手动输入系统，并在基于规则的系统中由手工制定的规则进行操作。因此，这些模型无法很好地扩展到通用交互任务。使用命题从句很难对复杂屏幕对象的基本特征和感知相似性进行建模。使用这些模型特别难以建模视觉障碍。例如，对于不同程度的视力丧失，对象看起来在连续尺度上模糊，并且这种连续尺度难以使用ACT-R或EPIC中的命题条款来建模。 Shah，Rajyaguru，St。Amant和Ritter（2003）提出在认知模型中使用图像处理算法，但他们尚未公布任何有关其模型预测能力的结果。

基于图像处理的方法集中于预测复杂场景中的固定点，而HCI中的研究人员主要尝试预测简单和受控任务中的眼睛运动轨迹。使用图像处理算法预测注视持续时间并在单个模型中将它们与合适的眼球运动策略相结合的工作较少。 EMMA模型是朝这个方向的尝试，但它没有使用任何图像处理算法来量化对象之间的感知相似性。

Biswas和Robinson提出了一种感知模型，该模型采用鼠标事件列表，界面的一系列位图图像和界面中不同对象的位置作为输入，并产生一系列眼动作为输出。该模型由四个自由参数控制：用户距离屏幕的距离，中心凹角度，旁中心凹角度和周边角度（图8.1）。这些参数的默认值根据EPIC架构设置。 Biswas和Robinson的模型遵循视觉感知的“聚光灯”隐喻。我们察觉到某些东西。

Wiley人机交互手册

在这里插入图片描述

图8.1 中心凹，旁中心凹和周边视力

在计算机屏幕上，将注意力集中在屏幕的一部分上，然后在该区域内搜索所需的对象。如果找不到目标对象，我们会查看屏幕的其他部分，直到找到对象或扫描整个屏幕。该模型分三个步骤模拟该过程。

1 扫描屏幕并将其分解为原始功能
2 通过评估屏幕的不同区域与包含目标的区域的相似性来找到可能的注意力固定点。
3 演绎眼球运动的轨迹。

Biswas和Robinson（2009）的感知模型通过在屏幕的某个部分内定义焦点矩形来表示用户的注意区域。根据用户与屏幕的距离和周边角度（距离×tan（周边角度/ 2），图8.1）计算焦点矩形的面积。如果焦点矩形包含多个可能目标（其位置输入到系统），则它会缩小以调查每个单独的项目。类似地，在屏幕的稀疏区域中，焦点矩形的大小增加以减少注意力移位的量。该模型通过将整个屏幕划分为几个焦点矩形来扫描整个屏幕，其中一个矩阵应包含实际目标。通过评估其他焦点矩形与包含目标的矩形的相似性来计算可能的注意点定位。我们知道哪个焦点矩形包含输入到系统的鼠标事件列表中的目标。通过将每个焦点矩形分解成一组特征（颜色，边缘，形状等）然后比较这些特征的值来测量相似性。在比较期间，焦点矩形相对于它们内的对象对齐。

最后，该模型通过结合不同的眼球运动策略来转移注意力。该模型还可以通过根据损伤的性质修改输入的位图图像来模拟视觉障碍对交互的影响（如视力模糊损失，改变色盲的颜色）失明）。图8.2显示了在视觉搜索任务期间的实际和预测的眼睛运动路径（实际的绿线，预测的黑线）和眼睛凝视注视点（覆盖绿色圆圈）。该图显示了对protanope（一种色盲）参与者的预测，因此右手图与左手图不同，因为在输入图像上模拟了protanopia的效果。关于该模型的校准和验证的更多细节已在两篇不同的论文中描述（Biswas＆Robinson，2008,2009）。
在这里插入图片描述
图8.2 模拟视觉障碍人群视觉感知模型的输出

建模运动 现代电子设备中的大多数现有应用程序基于图形用户界面，并且指向任务形成这些图形用户界面中的人机交互的重要部分。 Fitts定律（Fitts，1954）及其变体被广泛用于模拟指向作为一系列快速瞄准运动。 Fitts定律（Fitts，1954）预测运动时间是距目标的宽度和距离的函数。该法律非常稳健，适用于许多不同的情况，包括太空和水下。

尽管Fitts在1954年提出了他的定律，但在18世纪后期，Woodworth分析了快速瞄准运动中的速度 - 精度权衡，有或没有视觉反馈，并提出在快速瞄准运动中存在初始脉冲和电流控制阶段。在快速瞄准运动和Fitts定律的推导（或其工作原理）的性质在心理学家之间进行了争论。
Crossman和Goodeve在视觉反馈和矫正运动方面解释了Fitts的定律，而Schimdt在神经运动冲动方面解释了Fitts定律。迈耶提出了一个预测快速瞄准运动的运动时间的广义方程，它将Fitts定律作为支持Crossman和Schimdt模型的特殊情况。本书专门论述了菲茨的定律及其在人机交互中的应用。

然而，Fitts法对运动障碍患者的应用是可以解决的。摩托障碍的用户既顺应费茨法则时，任务非常简单，因此需要，视觉和肌肉动作之间的较少协调或者有其他感官提示除了视觉。在访问的计算现有工程主要指出了指点输入所面临的残疾人的问题，但没有太多报道权的工作？不同损伤对指向性能影响的初步分析。以前的工作主要基于对疾病的描述或自我报告的残疾程度。一些研究人员研究了用户的反应时间 - 例如。单开关性能测试，但没有太多关于人为因素与人机交互（HCI）参数相关的客观评估工作。在一些值得注意的尝试中，Gajos等人。发现涉及距离和目标宽度的功能的不同组合可以预测不同的运动时间。

Wiley人机交互手册 行动障碍的类型。 Keates，Clarkson和Robinson测量了身体健康和运动障碍用户与模拟人类处理器之间的差异，发现有运动障碍的用户比他们健全的同行更大的运动时间。

在人体工程学领域，Laursen，Jensen和Ratkevicius（2001）研究了指向期间肩部，颈部和前臂肌肉活动的差异，并且毫不奇怪地得出结论，运动损伤需要更多的运动活动。但是他们没有尝试关联任何指向参数与人为因素。 Smits-Engelsman（2007）发现手腕的活动范围与Fitts定律（Fitts，1954）常常与先天性痉挛性半瘫患儿的指点任务相关。尽管测量技术很有前途，但尚未通过可靠性分析（测试 - 再测试值）标准化，如人体工程学家和职业治疗师使用的技术。虚拟现实游戏手套如何影响自然交互并与患有严重手指痉挛的人一起工作需要进行调查。

Biswas和Langdon（2012）分析了四种不同输入模态（鼠标，轨迹球，触摸板和触控笔）的指向任务，并研究了手部力量如何影响有和没有行动障碍的人的表现。已经发现，运动速度与握力成正比，腕部的有效活动范围（ROM）和源和目标附近的平均子运动数量与握力和范围的对数显着相关（p <0.05）。所有指向设备的手腕运动。手强度指标和指向性能之间的相关性与获得的结果一致。另一项涉及完全不同的参与者的研究也证实了用户的偏好与使用该模型的预测性能相匹配。特别是，与年龄相关的运动损伤的用户优选中心组织的目标而不是外围的目标，这些目标也由这些模型支持，因为集中组织的目标需要比周边目标更少的穿越距离，因此需要更少的移动时间。结果用于开发一组线性回归模型，该模型将握力，写入运动范围，目标距离和目标大小作为输入，并预测不同输入设备的指向时间和子运动的平均数量。

图8.3显示了模型输出的示例。蓝线显示了运动受损用户的鼠标移动的样本轨迹。可以看出，轨迹包含源和目标附近的随机运动。该模型还预测了近似的运动时间，并且除了视觉损伤模拟器之外还可以运行。在这个特定的图片中，还模拟了干性黄斑变性早期阶段的影响，导致图像失真。关于该模型的校准和验证的更多细节已在不同的论文中描述（Biswas＆Langdon，2012）。

对设备实际指向时间的比较（Biswas＆Langdon，2012）表明，对于身体健全的用户来说，鼠标速度最快，而对于残疾用户来说触摸屏最快。这可归因于以下事实：触摸屏或手写笔的子运动数量少于鼠标或轨迹球。对于禁用的用户，直接触摸屏幕似乎更容易，而不是使用鼠标或轨迹球操作指针。然而，值得注意的是，Biswas和Langdon报道说，有些用户根本无法使用触摸屏，因为他们无法展开手指或发生明显的震颤，而所有用户都可以使用鼠标，轨迹球或手电筒。
在这里插入图片描述
图8.3 模拟模拟移动性障碍人员光标移动的模型的输出

用户建模的应用

1、界面个性化 用户建模的主要应用之一是调整用户界面以促进人机交互。在以下部分中，我们介绍了包含用户模型系统 - 基于Web服务的上下文和设备无关的界面个性化系统，该系统可以根据存储的在线用户配置文件调整界面的静态功能和动态交互。

Stephanidis（1998）及其同事将适应分类为静态和动态适应。静态适应在用户开始与其交互之前个性化界面，并且在交互期间不改变界面的任何特征。动态适应持续监控用户与系统的交互，并根据用户的交互调整用户界面的功能。包容性用户建模系统的静态适应特性可以根据视敏度，色盲类型，握力，手腕活动范围和用户静态震颤自动调整界面的字体大小，颜色对比度，线条和按钮间距。动态适应部分连续监视用户在屏幕上的鼠标移动，并基于最小二乘多项式曲线拟合算法，扩展用户在界面中的预期目标。此外，包容性用户建模系统

• 遵循EU集群指定并发布的标准化用户配置文件格式国际电信联盟;
• 不建议更改界面的内容，而是指定布局参数，因此很容易与不同的应用程序集
成;
• 通过假设不同设备的观看距离并将屏幕分辨率作为输入参数，可以自动转换多个设备（如电视，电脑，笔记本电脑，手机等）的界面参数（如字体大小或按钮间距）;
• 调查了人类视觉，听觉和运动功能的细节，并通过广泛的用户试验开发，将人为因素与界面参数联系起来。

2、静态适应

用户个人资料创建页面（图8.4）将用户的年龄，性别，身高，最小字体大小，痉挛或震颤水平作为输入。该网页还使用Ishihara色盲板和Amsler网格来检测色盲和失真的类型。
在这里插入图片描述
图8.4 用户配置文件创建页面

视力分别。前面关于视觉感知和运动建模的章节中描述的模型可以预测具有视敏度v和对比敏感度的人将如何感知界面或具有握力g的人，以及手腕的运动范围（ROMW）w，将使用指点设备。蒙特卡罗模拟中使用此值范围来开发一组与用户的能力范围相关的规则，其中包括字体大小，颜色对比度，行间距，默认缩放级别等界面参数。基于规则的系统以及用户，设备和应用程序配置文件存储在基于云的服务器中。

用户注册后，其配置文件将存储在基于云的服务器中，任何设备或应用程序都可以访问。基于规则的系统选择适当的样式表（对于基于Web的系统）或一组接口参数（对于非基于Web的系统）作为输出。客户端应用程序从用户模型和传感器网络读取数据（如果他们可以访问它）并通过选择适当的预定义样式表或更改参数来更改字体大小，字体颜色，行间距，默认缩放级别等。每个单独的网页或独立应用程序。图8.5显示了基于Web，基于移动电话，基于Android和基于数字电视的系统的此类集成示例。

3、动态适应

除了定制界面的静态功能外，我们还进一步开发了一个指向便利系统，可以读取瞬时光标移动和扩展。
在这里插入图片描述
图8.5 个性化系统示例。（a）个性化农业咨询系统（基于网络）。（b）个性化农业咨询系统（基于移动电话）。（c）个性化灾害预警系统（基于Android）。（d）个性化数字电视框架（基于机顶盒）

在这里插入图片描述
图8.5（续）

除了定制界面的静态特性外，我们还进一步开发了一个指向方便系统，该系统可以读取即时光标移动并基于此扩展屏幕上的目标。指向便利系统有以下两个步骤：
1.基于多项式算法的平滑光标轨迹。
2.为每个屏幕目标打分并在中扩展屏幕目标与被选中的概率成比例

以下各节将进一步详细解释这些步骤。

平滑算法 以前的分析（Biswas & Langdon, 2012; Keates, Trewin, & Paradise, 2005; Trewin & Pain, 1999)），《用手观察人的光标轨迹》损伤显示一个光标运动由许多潜移组成。当用户试图停止光标移动。子移动的存在会在光标中引入随机抖动。运动。我们研究了不同的平滑和滤波技术，如卡尔曼滤波器、贝塞尔曲线拟合、多项式的最小二乘曲线拟合从1到8，由不同运动范围的人产生的光标轨迹能力，根据拟合质量（r平方和误差），我们选择了四次平滑光标移动的公式。自适应系统存储一定数量的以前鼠标移动，以获得最后一个鼠标的最小二乘拟合。创建平滑轨迹的运动（图8.6）。
在这里插入图片描述
图8.6：一个关于急促指向运动的多项式平滑示例。红线是平滑线，蓝线是原始运动。

目标扩展算法 在平滑了光标轨迹后，自适应系统试图根据光标运动的瞬时加速度来预测用户是否处于运动的弹道或归位阶段（Fitts，1954），然后使用以下任何一种方法来计算目标选择的概率。

如果光标移动处于弹道阶段，我们将根据每个目标分配一个分数。关于运动的方向。每次鼠标移动时，考虑到鼠标的方向向量和目标的中心，这个角度将弧度添加到该目标的分数数组中。得到了方向向量，通过插入最后三个平滑的鼠标移动。我们只考虑向目标中心移动。然而，谨慎的做法是添加代码以处理向系统中目标边缘移动的用户，其中使用较大的按钮。

在归位阶段，分数完全基于光标方向上与目标的距离，距离越近分数越低。当光标第一次到达目标时，它的分数将减为零，然后，鼠标在目标上的每次移动都会向分数添加一个常量值。最后，我们根据目标评分算法的输出，以7Hz的频率扩展了最可能的目标（得分最高的目标）比其原始大小大40%。可以注意到，当用户移动鼠标指针时，扩展目标的频率从屏幕刷新率降低，以减少目标的闪烁。

图8.7显示了调整后接口的示例。左侧按钮在指向方便系统之后放大（由灰色椭圆包围），字体大小和颜色对比度根据用户的能力范围进行调整。
在这里插入图片描述 图8.7显示静态和动态自适应的自适应接口。

4、软件接口设计 欧洲项目指南（“针对老年人的温和用户界面”）创建了一个软件框架和设计工具，使开发人员能够有效地将可访问性和个性化功能集成到其应用程序中，最大限度地减少对现有开发过程和工具的干预。指南项目使用模拟器来改进一套数字电视应用程序的设计。其中一个应用程序是媒体访问应用程序，其用途类似于电子节目指南。

媒体访问应用程序在检查第一个版本的用户配置文件（如与年龄相关的近视和帕金森氏病）的模拟结果后得到了改进。因此，在分析图8.8中的模拟器结果后，进行了调整，其中白色背景被视为过于明亮，尤其是对于轻度视觉损伤的用户，或在可聚焦箭头被视为不够可分辨的情况下。因此，决定将背景变暗，并在可能的情况下对可聚焦部分进行边界和放大。

在做了这些修改之后，模拟器被重新用于新的设计，以控制建议的效率。这些新的设计模拟器结果可以在图8.9中看到，图中首选灰色背景，并且增加了可选区域，不仅包含新边界箭头，还包括完整显示区域。

最后一个模拟步骤被认为是足够确凿的。因此，对媒体访问应用程序不再进行细化。

非电子产品设计

前面的例子演示了模拟器在改进电子接口方面的应用。然而，模拟器也可以用来改进物理接口的设计。本节说明模拟器如何帮助产品设计师了解不同类型视觉损伤的影响，并提供有用的信息来改进设计。

下面的例子演示了设计师如何判断一个特定品牌的产品是否会被患有轻度黄斑变性和红绿色色盲的人与其他类似品牌混淆。我们从图8.10所示的以下目标产品开始，并将其与三个类似品牌进行比较。图8.11显示了目标产品和其他三个类似品牌的红绿色盲和黄斑变性早期的模拟。色彩变化和图像模糊将有助于设计师形象化视觉障碍患者的问题。

然而，我们进行了更详细的分析，图8.12和表8.1显示了这些产品的颜色和形状特征对于有或没有视觉损伤的人的相似性。我们假设一个二维的产品网格，因为它们被安排在超市或在线购物网页中。我们测量了目标产品（图8.12中用红色圆圈标记）与其他类似品牌之间的颜色柱状图（一种比较两个图像中颜色特征的算法）和形状上下文（一种比较两个图像的形状的算法）系数，比例为0到1。

我们在每个品牌下面都放了一组标题，都以字母“C”和“O”开头。这些标题是定价信息的占位符，因为它们出现在产品图片下面，并且它们在视觉上保持相似。在表8.1中，目标品牌为红色，颜色和形状不同的品牌为粗体。表中还显示，没有视觉障碍的人与这些特定品牌的红绿色盲用户之间没有显著差异。然而，对于黄斑变性患者，由于视力模糊和扭曲，颜色直方图和形状上下文系数都降低了，特别是目标品牌和另一个类似品牌之间的颜色直方图系数变得相似。因此，模拟结果表明，目标品牌应该有更鲜明的色彩来覆盖视觉模糊和扭曲的人群。分析可以扩展针对不同能力范围的人，精确定位能够使目标品牌看起来与其他品牌相似的颜色和形状特征。
在这里插入图片描述
图8.8第一版模拟器的轻度视觉和严重运动损伤结果。

在这里插入图片描述
图8.9 应用建议后，新设计版本的模拟器结果显示轻度视觉和严重运动损伤。

在这里插入图片描述
图 8.10 目标品牌

图 8.11 色盲和早期黄斑变性对象视角的模拟。

在这里插入图片描述
图8.12 不同产品的展示。

表 8.1 颜色直方图和形状上下文系数。

在这里插入图片描述

有关用户建模的问题

本章前几节介绍了许多的模型，并以“包容性用户模型”为例进行了特定的研究。然而，用户建模仍然是一个活跃的研究领域，存在以下一些开放式问题。

1、保真度

Card, Moran和Newell的 Model Human Processor是整个人机交互领域的一个简化代表，考虑了感知、认知和运动动作，而Fleetwood和其同事的模型只分析了在查看图标的情况下眼睛的注视跟踪运动。对人类活动的模拟可以从为特定大脑区域的神经元反应建模，到通过分析以前的搜索字符来预测查询词。在用户建模的上下文中，通常很难确定模型的保真度级别。Kieras还通过一个涉及GOMS模型和EPIC架构的案例研究证明，高保真模型并不一定意味着建模的准确性更高，因为每一个新的详细建模级别也会引入新的错误。

2、目的

为什么我们需要一个用户模型？它是用来分析某一个一个特定类型的人机交互吗？(例如，Fleetwood在设计图标的背景下分析视觉搜索的工作)，或者，我们需要模型来预测人类的性能吗？比如说，在评估界面过程中，其中的错误数量和所需的任务完成时间。用户建模的目的也与上面讨论的保真度问题有关。探索性模型需要详细研究人为因素，一般选择像ACT‐R认知架构一样的高保真度模型，预测模型则更面向应用，可使用工程近似(如KLM的时间近似)的高精度模型。

3、应用

用户模型的应用还决定了模型的类型和保真度。为网络学习或推荐系统而开发的模型不需要为基础心理学建模;相反，它们可以通过以前的搜索查询、语言的语义模型等形式更明确地表示人机交互。这种类型的模型通常集成到一个应用中，并且与其他应用不兼容，除非是为其自身设计的其他应用。然而，像GOMS或CogTool这样的模型是为任何用户界面的经验评估而开发的，并以一种与应用无关的方式研究人为因素。最后，在HCI环境之外，像ACT‐R、EPIC或CORE这样的认知架构旨在解释人类行为的特定类型，因此使用ACT‐R或EPIC模型比使用GOMS模型需要调整更多的参数和了解更多的心理学知识。

4、代表

涉及到GOMS或者如ACT‐R一样的认知架构的用户模型，通常用于模拟用户的一般认知表现，并可以通过调整参数从而将数据匹配到单个用户。然而，许多用户模型需要预测单个用户的表现，例如，基于某人的浏览历史来预测他（她）的查询项。这些预测用户模型需要一种有效的方法以用户概要文件的形式存储用户特征。用户概要文件的内容在不同的应用中差别很大，但是越来越多的电子商务和基于Web的自适应系统创建了许多标记语言(ML)来存储用户概要文件。例如，UsiXML、EMMA(可扩展多模式注释标记语言)、MARIA XML等等。下一节讨论欧洲委员会为标准化用户概要文件的通用格式所做的努力。

5、标准化

2010年，欧盟委员会发起了一项标准化用户建模研究的倡议，涉及四个不同的欧盟项目(GUIDE、MyUI、VERITAS、VICON)。该联盟被命名为VUMS (Virtual User Model and Simulation)，其主要目的是:

●开发一个通用的用户概要文件;
●在不同项目之间共享用户概要文件；
●建立一个共同的道德规范的格式。

在接下来的三年里，VUMS联盟计算出了一个关于用户模型的名词术语表，并收集了一组巨量用户特征，这些特征与设计无障碍汽车、消费类电子产品和计算机软件相关。

表 8.2 用户档案格式。
在这里插入图片描述 表8.2 提供了用户概要文件的必备部分。

然而，由于VUMS应用的多样性，从汽车环境到数字电视框架，VUMS的用户概要文件往往太长、太复杂，以至于没有被HCI研究人员采用，因为他们不太关心数字人体建模。2014年，ITU-T的两个致力于视听媒体可达性(FGAVA)和智能电视(FG智能电视)的中心小组发布了可用于HCI相关方面研究的VUMS用户概要文件的子集。以下是该用户概要文件的目的：

●个性化软件应用界面布局;
●根据用户喜好调整电子内容;
●根据用户需求选择合适的接入服务;
●在设计用户界面时模拟用户的交互模式。

总结

模型研究的重点，从一般模型(对典型用户建模)转向更小众、更个性化的模型，这反映出用户模型研究人员对用户群体性质的思考发生了转变。在其早期阶段，HCI研究团体倾向于将用户群体视为一个相对同类的群体。这一人群中唯一的分类往往是计算机专家和新手。随着HCI作为一门学科日渐成熟，人们越来越认识到人口的多样性，模型的发展也愈加反映了这一点。上世纪80年代和90年代建立的HCI模型是发展的基础，不仅反映了技术观念的变化还体现了为用户设计的优先次序的变化。

普通用户的概念反映在早期的用户模型中，但更重要的是，它也是该领域实际设计实践的(部分除外)特征。近年来，模型的实用性在一定程度上是为了帮助设计师理解并考虑到处于用户群体外部边缘的用户的需求。用户模型设计师们通常很容易想象出一个“典型的”目标用户群体，他们身体健全，没有身体缺陷或文化缺陷。因此，用户群体往往是由中心来观察的，对“非标准”用户的关注不够。而建模重点的变化，特别是在知觉和运动能力方面建模的变化，部分是因为对人口变化的认识，另一部分是由于基于软件的系统的形式和目的的扩展。

人口结构的变化，尤其是老年人比例的不断上升，意味着普通用户的概念越来越多余。用户有各种各样的个人需求，软件产品应该理解和满足各种各样的需求，因此应当在设计普遍访问和包含的情况下部署模型。这可能是为了考虑到那些已登记有残疾的人，但是，也越来越多地出现了一系列相对较小的损害，这些损害会影响软件产品的使用。所以，支持个性化、自定义和使用灵活的建模变得越来越重要。

用户模型焦点的进一步转移，是因为人类的更多方面渐渐被认为与交互有关。用户模型最初关注的是人类认知系统和与设备的物理交互方面。当然，这些如今仍然是HCI的核心议程。然而，这个议程最初的重点是桌面，主要是在工作场景中。家庭和周围环境中越来越多的基于软件的系统，以及支持全身交互的系统，拓宽了用户建模的议程。因此，HCI中的下一代用户模型很可能更更广泛地体现这一议程。此外，人类作为用户的某些方面是无法用于预测建模的，这是设计的一个重点领域。社会性、信任和用户体验的其他方面需要能够促进和影响设计思维的方法，而不是指定严格的参数。