

本文翻译了发表在CHI2018的研究综述 << Evaluation Strategies for HCI Toolkit Research>>


(Friedman, Batya and Nissenbaum, Helen (1996) Bias in computer systems. A CM Tramactions on Information Systemsk4 pp. 330-347)

注2:大多数HCI研究归为三类问题:经验性的(empirical) ,概念性的(conceptual) 和建设性的(constructive)
(Antti Oulasvirta and Kasper Hornbæk. 2016. HCI Research As Problem-Solving. In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems (CHI ’16). ACM, New York, NY, USA, 4956–4967.https://doi.org/10.1145/2858036.2858283)




在HCI领域中,Greenberg[27]将toolkit定义为一种为程序员封装界面设计概念的方法,包括程序集,界面生成器(interface builder)和开发环境.设计者和开发者用这样的toolkit来创建交互型应用.因此,toolkit更适合被看作为了创建产物而设计的生成平台,同时可以简化创作过程并支持进行创造性探索.

虽然HCI研究中toolkit有很多,但从经验上来说toolkit论文因为各种偏见很难发表[72].比如,有些审稿人仅仅将toolki看作工程,而不是研究.另一种偏见是审稿人要求对toolkit进行评估(通常是通过某种特定的办法),但是没有考虑这种评估是否实际上对特定的toolkit贡献时必要的或是恰当的(译者的私货:赞同!!!).因此,关于将toolkit作为研究贡献的认可仍然是一个挑战和一个经常讨论的话题[27,68,77].与HCI其他工作一致,我们应该期望HCI toolkit研究使用合适的评估方法来最好地匹配所考虑的特定研究问题[28].然而,尽管当前的文献确实使用了评估方法,但是对于用什么方法,什么时候适用,以及这些方法如何通过不同的技术来实现评估,几乎没有总结性的反思.

HCI toolkit论文的数量在过去20年中有明显的增加.论文通常采用一系列的评估方法,通常从软件工程,设计和可用性评估中借鉴和整合技术.我们可以思考toolkit研究人员是如何集体得出那些评估方法是有效的,何时用是适当的以及它们是如何执行的.

基于对于68篇代表性的toolkit论文的分析,这篇论文对HCI研究中toolkit的评估方法进行了综述和深入探讨.我们确定出了四种评估策略的类型:(1) 演示(demonstration),(2)使用(usage), (3) 技术基准(technical benchmarks), and(4) 启发式(heuristics)评估.我们提出这四种评估类型,讨论每种策略对应的价值和偏见(注1).研究人员可以使用这些综合的方法来对他们的toolkit研究选择合适的评估技术.

What is a toolkit

在HCI文献里,toolkit这一词被广泛地用于形容各种类型的软件,硬件,设计和概念性的框架.Toolkit研究被归为建设性研究(constructive research)(注2).建设性研究被 Oulasvirta and Hornbæk定义为:“在人类对计算机的使用中,为了某种目的而提供对交互造物构造过程的理解”[78].他们指出,建设性研究是由于(完全)已知的解决方案或资源的缺失所驱动来实现和部署该解决方案.作为建设性研究,toolkit发现新概念,设计或技术解决方案来解决未解决的问题.为了明确我们的审查范围,我们介绍了toolkit和toolkit评估的定义和总结以及为什么HCI研究人员构建toolkit.

Defining a toolkit


Why do research build toolkits

在讨论toolkit评估之前,我们先详细说说toolkit对于HCI研究的贡献.Wobbrock和Kientz将toolkits定位为一个产物贡献:“被嵌入到产物和描述它的支持材料并体现出的新知识”[106] (new knowledge is embedded in and manifested by artifacts and the supporting materials that describe them.绕口).我们总结了 [68] [77][27]对于HCI系统研究价值的讨论,得出了toolkit的五个目标:


Evaluating Toolkits

HCI toolkit和系统研究的一个共同点是发表的困难[72].这一部分源于审稿人需要评估方法,无论该方法是否对toolkit的贡献必要或合适.一部分问题是缺乏明确的方法[72]或者在toolkit中对于评估的定义.作为toolkit设计者,我们的立场是toolkit的评估必须源于论文中的主张(claims).这意味着理解并接受一个事实,即评估实际上是一种贯彻提出创新主张的手段.并扪心自问:“我们从评估中得到了什么”
toolkits与执行一个任务(比如,一个系统,一个算法或者一种交互技术)从根本上来说是不同的,因为它们可以在解决方案空间中提供生成式的,开放式的创作.Toolkit用户可以通过重用,组合和调整toolkit提供的构件(build blocks).因此,对于这种生成能力的权衡仍是有待开发的巨大空间.因此,只检查一小部分使用情况的评估方法不适合证明研究贡献,也不能代表一个toolkit的成功.正如Olsen[77]在他对于评估系统研究的反思论文中总结的:“简单的度量可以产生不一定有意义的简单化进度(simple metrics can produce simplistic progress that is not necessarily meaningful)”.因此,核心问题是,"什么是评估?"以及我们如何反思和评估如此复杂的toolkit研究.




为了收集HCI toolki中有代表的论文集,我们匹配以下标准选出58篇论文:
出版地点和日期: 我们选择了2000年以来在ACM SIGCHI主要会议(比如,CHI,UIST,DIS,Ubicomp,TEI,MobildHCI)发表的toolkit论文.
关键词和定义: 我们选择包含以下关键词的论文:toolkit,设计工具,原型设计工具,框架,API.所有论文都遵循我们提到的toolkit的定义.
我们基于典型影响(比如,引用数量,应用程度)额外选出10篇论文,比如D3[12],Piccolo/Jazz[[6],以及Context Toolkit[85].数据集总共包含68篇论文(表1).尽管数据集没有包含所有的toolkit论文,但它是一个具有代表性的样本,我们可以从中(1)收集见解以及(2)发起关于评估有意义的讨论.

Analysis and Result



Type 1: Demonstration

Douglas Engelbart提出的现在著名的"mother of all demos"确立了如何演示新的技术可以有效的交流,证明以及简单的展示新的想法和概念.一个想法向临近问题空间的可转移性往往通过演示应用实例来说明[78].在我们的例子中,68篇中有65篇演示了toolkit可以做什么,要么将演示作为唯一评估方法(19/68),或者与其他方法组合(46/68).演示展示了toolkie可能支持什么,以及用户如何使用它.从展示新概念[29,85],到重点案例研究[4,90]到系统设计空间探索[40,50,59].

Why use demonstrations?



Evaluation techniques as used in demonstrations


1.新颖的示例. toolkit的演示可以通过展示新颖示例,系统或交互技术的实现来完成.The Context Toolkit[85]是一个说明如何用实例应用来演示上下文感知(context-awareness)这一基本概念的经典例子[91].一个更近的例子是WorldKit[108],它展示了在四种不同环境下日常表面(surface)基于投影的触摸界面.同样的在DiamondSpin[92]中,作者通过展示五种不同的桌面设计来探索他们的多指触控桌面toolkit的能力.Peripheral展示toolkit[63]通过三个应用来演示toolkit可以支持新的外围设备显示.最后的例子是Sauron[87],它描述了三个演示toolkit提供的一系列交互组件的原型.对于这些示例来说,重要的是它们详细说明了特性,设计原则和构件是如何让应用新颖的.

2.复制的示例. Toolkits通常有助于编写之前被认为难以构建的系统.重现先前的应用程序,系统或交互技术,展示了toolkit如何支持和将先前想法封装到更广阔的解决空间中.例如,Prefuse[38]声明他们"重现了已有的可视化和精致新颖的设计来测试toolkit的表现力,有效性和可拓展性.在d.tools[37], 作者重建了一个经典iPod界面,同时TouchID toolkit[67]在双手交互中重建了来自于其他资源的先前工作(比如.Rock and Rails[108]).类似的,SwingStates[2]和Prefab[20]通过重建研究文献(比如.Bubble Cursor[34],Cross Y[1])的交互技术来模拟toolkit的表现力和能力.这些示例演示了toolkit如何减少重建应用程序的复杂性,工作量和开发时间.此外,复制可以演示toolkit如何在各种例子中通用.

3.案例研究(case study) 由于toolkits通常支持复杂的应用程序,因此案例研究(通常是并发的研究项目)可以帮助更深的探索和详述(elaborate,也有精心制作的意思)toolkit.68篇中有5篇包含案例研究,以展示他们的toolkit可以做什么.iStuff toolkits提供了使用该toolkit的其他研究项目的案例研究.同样的,SoD toolkit描述了它在复杂案例研究中的应用:一个油气勘探应用和一个应急响应系统.Prefuse[38]报告了Vizster的设计,一种用于社交媒体数据的定制可视化工具.尽管案例研究比示例少见,它们令人信服的演示了toolki在复杂场景而不是小型示例程序中的应用.

4.设计空间的探索 设计空间的探索通过将其融入更广阔的研究主题来展示toolkit所支持的广度.设计空间通常由具有示例相对的属性(范畴或范围变量.categorical or spectrum variables)[106]的维度组成.一个toolkit作者可以创建示例集合,其中,每个示例可以检验设计空间的不同方面.举个例子,WatchConnect[43]描述了一个toolkit如何支持手表原型和第二个屏幕之间交互的设计空间.通过提供了5个包含复制和新颖的技术,作者证实了智能手表和第二屏幕的设计空间.Proximity toolkit类似描述了空间距离(proxemic)交互(比如,距离,方向,定位)的设计维度,并通过示例演示了tookit如何支持新的可感知空间距离的应用.Pineal[54]结合新颖的和复制的例子,探索了使用和重新调整移动传感器的不同方法以及用于创作智能对象的结果.最后,DART[61]是一个支持通过一系列’行为’和示例来探索设计空间的toolkit的示例.因此设计空间探索是一个尝试勘察潜在设计边界的系统化方法.尽管探索完整的设计空间通常是不可能的,示例展示了toolkit支持的设计广度.

5.如何描述场景 Toolkit论文可以逐步演示用户如何创建特定应用.场景将任务分解为演示工作流的各个步骤,并展示每个步骤的结果.我们发现3种方法来描述场景,一种方法是用一个章节来描述如何创作一个例子(比如.RetroFab[87],Pineal[54]).第二种是,可以在整篇论文中使用一个场景来展示示例的不同部分是如何组合在一起的(比如.Proximity toolkit[64]).如同VoodooSketch[12]和Circuitstack[104]中的演示场景(demo scenarios)是解释用户如何体验toolkit最小阻力路径的常用方法.第三种是,作者可能附上代码.比如,Prefuse[38]和Weave[17]使用代码片段来解释如何在代码中直接支持某些设计原则或构件.



Reflection and Opportunities

为toolkit设计和示例提供理论基础. 在每一项技术中都存在着指导技术设计的假设,原则和经验.在设计toolkit时,许多假设可能会被认为是任意设定的.然而,toolkit作者经常依靠他们的经验,即使他们没有明确的提及.对于挑战的理解也许可以从早期的工具或toolkit的研究或经验中获得.讨论这些理解有助于解释做出不同决定的原因.Nebeling的XD toolkit集[74,75,76]就是一个很有说服力的例子.他们构造了多个toolkits来结构化和系统化的探索跨设备计算的庞大设计空间.他们显然是通过早期设计toolkits和系统的经验来推动每个toolkit的设计和开发.更广泛地说,通过设计的研究[39]有助于探索想法的具体实现,

第一手经验 . Toolkit作者通常有创建toolkit可以支持的应用,因此真正熟悉开发挑战和需要简化的步骤.这种经验导致自传体设计[78]为toolkit设计过程提供信息.在Phidgets[32],作者讨论了他们在编写基于硬件的应用时遇到的挫折,这为他们的设计和实现提供了依据.一个toolkit也可以利用构建类似toolkit的经验.D3[14]的设计演变于作者在早期创作可视化toolkits[例如,Prefuse[38],ProtoVis[13])的经验.

先前工作. 以前的研究中发现的挑战可以推进toolkit设计.比如,Context Toolkit[91]描述了在创作基于先前工作的上下文感知应用的挑战.(比如.多个分布式资源的新型感知)

形成性研究(Formative studies). 作者可以通用形成性研究以了解他们的目标受众.比如,在d.tools[37]中,作者在产品设计公司进行了采访,理解当前的实践可以帮助解决当前toolkit设计方面的挑战.


虽然演示回答了"toolkit可以构建什么"的问题,但评估使用可以帮助验证在某种情况下"谁可以使用toolkit".比如,哪些任务或活动可以由一个目标用户群体执行,而哪些依然有困难.为了评估用户组是否以及如何确实使用工具,调查用户如何使用工具是很重要的.我们的样本体现了超过半数的论文(35/68)包含了使用研究(usage study).其中只有一篇论文仅仅用使用研究作为唯一评估方法[42].使用研究通常结合演示(33/68)或技术评估(9/68).

Why Evaluate Usage?


Evaluation Techniques as Used in Usage Studies


1.使用研究. 当toolkit声称它们促进了一个过程,作者可以选择进行可用性研究.这有助于通过衡量参与者的表现(比如时间,准确性)和进一步定性反馈来确定toolkit的问题.参与者通常被赋予探索toolkit各个方面的编程任务.这些编程任务往往是封闭式的,尽管有些任务可能包含了少量的开放性(例如[36]).为了提高控制力,有些任务可能包含预先编写的框架代码(例如[74]).可用性研究可以检验toolkit的多个方面.例如,Papier-Mâché[52]展示了toolkit的API可用性的评估,这表明了软件组件的命名和toolkit缺失文档的方面存在不一致性.Hartmann创造了"初用研究(first-use study)"一词,其中参与者首次接触toolkit并分配不同的任务.在d.tools[37]中.研究的目的是确定系统的阈值[73],而在Exemplar[36[中,重点是确定工具的成功和不足.Exemplar[36[的研究将多个封闭式任务和一个更加开放式任务相结合.一些论文报告修改toolkit来解决在可用性研究中发现的问题[52,60],其中Greenberg和Buxton建议这应该成为可用性研究的首要目的[31].

2.A/B比较. 一种表明对已有工作的改进的方法是将新toolkit与基线及逆行比较.基线包括toolkit或者使用不同toolkit的工作.在MAUI[40]中,作者比较了不同的平台来衡量他们定义的工作量:类的数量,总代码行数,为反馈编写的行数以及开发时间.通过与GroupKit(一个之前也支持一个类似任务的toolkit[90])和Java(没有toolkit),作者可以展示对于目前技术水平的改进程度.A/B比较可以测试toolkit中的变化.Lin和Landay[59]将他们的原型工具与没有关键特性(模式和层)的工具进行了比较,以确定改进和偏好.最后,Paperbox[107]和XDStudio[75]都比较了它们toolkit的不同配置.

3.走查演示(Walkthrough Demonstration). 一个走查演示由将toolkit展示给一个潜在用户和获取他们的总体反应组成.不同于认知走查[85],走查演示并不是让用户直接使用toolkit来发现可用性问题.在走查演示中,实验人员有完全控制权并给参与者解释工作流以及示例甚至局限.当toolkit创造者想获得toolkit使用反馈时特别合适,因为它将焦点从toolkit的使用上移开(正如人们在可用性研究中可能发现的那样),并将其移向拥有toolkit带来的价值.虽然走查技术没有被广泛的探索,RetroFab[87[是一个例子.这种技术对于获得想法的反馈而不是特定toolkit实现的反馈很有效.它也可以为那些那没准备好进行可用性测试或部署的toolkit提供服务.

4.观察. 直接观察有助于说明用户如何使用toolkit解决从需要特定解决方案解决给定问题的封闭任务,到参与者指定问题并使用toolkit创建自己解决方案的开放任务.虽然我们分析过的论文很少有对参与者的流程或工作流进行深入讨论,但它们确实提供了toolkie的使用示例.HapticTouch[55]测试了参与者将在不同抽象层次提供的触觉概念转化为交互式应用程序2的能力:它的作者评估了toolkit提供的最小阻力路径来解决开放式和封闭式任务.我们的分析还发现观察性研究在多个参与者参与的短期[84]和长期[51,103]工作环境中被使用.例如,Pfeiffer[84]要求参与者集思广益,使用toolkit创建绿野仙踪原型.他们的视频分析讨论了创建的应用程序,以及关于他们的创作是如何完成的深入细节.在C4[51]中,参与者参加了为期3周的研讨会,其中一些人将在接下来的4周内参与艺术家驻留项目:观察告诉它的创造者设计决策是如何在实现中起作用的.

5.回家研究. 一些外部有效性[69]可以通过在实验室外进行实验.虽然toolkit在它受到广泛接受之前很难被部署,但研究人员可以将他们的toolkit提供给作为’早期采用者’的参与者.参与者获得toolkit(以及所有必要的组件和文档),在给定的时间(例如一周)来创建他们喜欢的任意应用.Phidgets[32], jQMultiTouch[76]以及Proximity Toolkit[64]都是典型的例子.在高级HCI课程中,学生可以访问toolkit和必要的硬件组件来创建有趣的示例.他们都展示了学生如何轻易的使用所特出的结构,他们将终点放在了作业的设计界面而不是低级编码.

6.李克特量表问卷. 李克特量表提供了一个与问题相关的非参数值.这些问题可以通过非参数测试或检验中间值来分析.在toolkit研究中,虽然李克特量表通常作为论点的验证(比如易用性),但它也可以将结果形式化来证明假设.例如,在Exemplar[36],作者不确定该系统是否能同时授权给专家和非专家,因为两者之间的表现可能有很大的不同.通过使用李克特量表问卷,参与者的答复证实了专家和非专家都有掌控感,从而验证了他们的假说.其他例子比如Damask[59], d.tools[37], Paperbox[107] 以及 Panelrama[114]使用李克特量表来量化用户在他们系统上的反馈.这些反馈通常是对其他可用性结果的补充.

7.开放性访谈. 在我们的样本中,12篇论文向参与者询问了在执行任务时的体验或挑战,这使作者对toolkit的过程,优点和不足有了新的了解[38,42,114].访谈问题可以从固定的问题开始但是时开放式的.因为它们允许在机会出现时进行进一步调查,例如寻求有趣的和/或不明确的回答.引用参与者的话会给研究带来活力,增添力量[17,60,95].访谈也可以揭示用户如何看待toolkit的特性,并可以带入到其他使用数据中.


通过可用性测试来评估toolkit的实现可能会分散对概念性想法和toolkit带来的机会的关注.Olsen[82]警告不要陷入"可用性陷阱",因为可用性评估的3个基本假设(逐步使用,标准化任务以及问题可拓展性)很少应用到系统研究中.此外,HCI研究toolkit仍然是个原型.对于小团队来说,创建一个有商业质量(fatal flaw fallacy[82])的toolkit时困难的.测量可用性的受控实验的范围是有限的,并且只能评估toolkit所能完成任务的一小部分,使得很难概括使用结果.此外,选定的试验任务可能有利于toolkit能完成的元素.在实现对任务的控制时,研究人员可以对这些任务进行优化,或者只创建可用性测试可以测量的内容.

Reflection and Opportunities

引入实用性. 可用性评估的一个核心挑战是关注toolkit的可用性与实用性[31]:虽然toolkit可能是可用的,但不一定实用.走查和访谈可以在这里有所帮助,可以通过提出关于实用性的问题,并深入探讨答案.

谨慎的选择任务和衡量标准. 虽然更多的控制,更多的措施和更可量化的结果似乎提供了严谨,但我们认为,只有在使用真正有代表性的任务和适当的措施时,严谨才有价值.严谨应该来源于方法,技术,和执行技术方法的仔细选择.文献应该清楚的说明为什么选择的任务和衡量标准支持论文中提出的主张.

了解受众选择的结果. toolkit作者应该批判性的反映和理解他们选择研究对象的含义.正如前面提到的,受众可能是一个近似或起点,但作者需要阐明这些意义和局限性

Type 3: Technical performance


Why analyze the technical performance?


Techniques as used in technical performance


1.以阈值为基准. 对于特定类型的应用,系统和算法,这里有已知的测试过的或需要的阈值作为基准,来检验一个系统是否符合一个公认的使用标准(比如,准确度,延迟).比如,实时追踪系统[79]经常使用30fps作为基线…KinectArms[28]和EagleSense[112]都以30fps作为基准推出新的追踪系统.阈值可以根据经验,技术或使用工作的经验得出.

2.以最高水平为基准. 标杆分析(benchmarking)通常会寻找对最高水平解决方案的改进.这种比较方法通常类似于HCI中的算法贡献(比如,[110]),其中一个toolkit的功能与已知的基线或者用于此目的的最佳算法进行比较.例如,在OpenCapSense[33],作者与之前的CapToolkit[109]比较了toolkit的电容传感性能.尽管不是一个toolkit(因此不是我们数据集的一部分),$1 GEsture Recognizer[110]是一个针对最新技术进行基准测试的优秀例子:基准测试表明,它相当接近最先进的水平,但是实现起来要简单得多(大约100行代码).D3[14]将页面加载时间与以前的toolkit和Adobe Flash进行了比较.考虑到他们的用例,页面加载时间被认为很重要:toolkit\在网页上查看toolkit创建的可视化效果.


技术基准通常作为演示或使用研究的补充.单独测量技术基准可能会突出使用toolkit一些与人相关的方面(例如,帧率,延迟),但不能解释使用toolkit的情况.例如,即使需要几行代码,具有代表性的示例依然很难编程.类似的,一篇论可能并不总能(明确地)表明基准的重要中(比如,[112]中的30fps),另一个挑战时依赖于与已有基线比较的基准测试.如果性能归还尚未发布,作者必须与当前最先进工作进行比较.考虑到HCI toolkit的原型性质快速发展的技术目标[73],许多已有的基线可能已经被弃用或者作者进行大量的重现.或者,如果技术挑战在之前没有被解决,基线可能不存在[82].

Reflection and Opportunities

充分了解和陈述技术局限. HCI toolkit研究者通常与商业toolkit开发者有截然不同的目标.例如,研究者可能想展示交互概念如何封装到一个易于编程的toolkit(比如,它的api)里,在这种情况下,基础设施(可能相当有限)只能作为概念证明.显著的局限应该被陈述并结合全文解释问什么它们不重要.

风险假设检验. Toolkit作者应该开放性的讨论测试背后的根本原理以及测试是否是一种压力测试.类似于一些Greenberg和Buxton的论点[31],也许最好的办法是积极尝试突破toolkit所提出的技术主张(比如,能够实时准确跟踪多达4人[111])来真正理解toolkit的技术边界.一种测试这些边界的方法是针对选定的度量对系统可拓展性进行压力测试.

开源和开放访问. 作为toolkit研究者,我们可以通过开源来促进比较和复制来帮助未来的研究者(例如[14,64,95]).理想情况下,这不仅仅针对学术文献或toolkit的源代码和文献,还包括基准测试数据,以便其他人可以运行测试(比如.在不同计算机或作为未来工作的基线).

讨论隐性基线. 虽然一个toolkit论文可能假设假设标准度量来确定系统是否工作(比如,24fps,或者完成一项任务的几行代码),但它可能有助于说明为什么这个度量是相关的.因此,不是很熟悉的读者可以更好的理解性能影响.

Type 4:Heuristics


Why use heuristics

启发式方法被用作一种折现法,它通常不需要参与者来收集见解,然而依然暴露出实用性的方面.Olsen关于表达杠杆和表达匹配(expressive leverage and expressive match)[82]的观点与Greenberg认为toolkit是一种促进创造的语言的观点[73]或者Myers认为系统的成功在于在需要的地方提供帮助,并创造出最小阻力路劲的观点[73]相一致.启发式方法是基于尝试过的成功[72]或理论(比如,认知维度[8]).

Evaluation techniques for heuristics


1.检查表. 检查表方法包括选择一种启发式评估方法,并一次进行一个单独的启发式方法.通过这样做,作者可以反思toolkit是否适合启发式方法以及符合程度.例如,Hartmann等人[36]采用Blackwell和Green的CDN方法进行了问卷调查[11].在评估每一项时,他们发现系统的需要局限是由于无法同时显示许多传感器的可视化.类似的,Meskens等人[70]采用了Olsen的启发式方法来确定界面中哪些元素是缺失的(比如,泛化和重用的能力).
2.讨论. 与检查表方法相比,Olsen的启发式方法[82]也被用作toolkit论文中的讨论中的反思点.这些反思让作者更好的理解局限以及在toolkit种是否还有未被解决的问题.Gummy[71]和WatckConnect[43]都是这种方法的例子,其中作者在与最好工作进行比较的同时反思了缺点(以及解决他们的方法).
3.基于启发式的使用研究. 启发式方法可以帮助决定什么对评估是有用的.XDKinect[74]根据Olsen的一些指导方针[82],制定了他们的使用研究,例如降低溶液粘度以及去除组合.


启发式评估的一个危险是陷入自证预言(self-fulfilling prophecies),也就是作者拓展了启发式方法的定义来证明他们的主张是正确的.或者,作者可能会选择只关注(1)他们的toolkit解决的启发式问题,或(2)toolkit如何不考虑消极方面或妥协的解决这些问题(比如.以牺牲expressive match为代价增加灵活性).有些时候启发式方法与特定的toolkit不相关.举个例子,CDN[10]包含了一系列应用,其中一些启发式方法只适用于一组应用(比如.可视化编程环境).在没有明确理由的情况下省略启发式方法可能会让读者认为作者是在挑拣启发式方法.启发式评估通常由作者进行,他们可能会有潜在的偏见.尽管HCI中的启发式评估表明外部评估人员具有附加价值[72,81],但鉴于toolkit的复杂性,这一点很困难.所有北条i差的论文都没有使用外部评估人员.

Reflection and opportunities

使用启发式方法作为设计指南. 启发式方法可以起到补充作用:它们可以为设计提供信息,也可以帮助评估设计.因此,toolkit作者可以从概念上考虑如何通过最佳实践在早期支持创造的各个方面(比如.API实践[99].举个例子,Intelligibility Toolkit[58]和HapticTouch[55]都讨论了启发了他们的一些设计目标的启发式方法.
使用启发式方法为嫌前面几项技术提供信息. 考虑到启发式方法提供的词汇表,作者可以考虑演示或使用研究如何从启发式方法本身产生的.举个例子.Olsen[82]建议实验性的评估表达匹配 的一种方法是执行"设计权限测试",其中参与者被要求被要求使用"良好表达匹配"(比如.颜色选取器)的常规设计和"糟糕表达匹配"(例如,十六进制颜色代码)的缺陷设计来弥补缺陷.
透明度. toolkit的作者可以通过阐明为什么要考虑或不考虑一种启发式方法来消除对于"挑拣启发式算法"和"剔除无关的启发式算法"的歧义.这将增加透明度,并可能暴露评估中的差距.



Rethinking Evaluation


Evaluation by demonstration?


Usability studies (still) considered harmful some of the time


Successful evaluation verses successful toolkit

在我们的数据集中,我们观察了解决HCI社区中不同子领域的一系列不同的toolkit,没有迹象表明toolkit的成功必然与评估的成功挂钩.一些toolkits以及在研究社区种取得了非凡的影响.比如,Context Toolkit已经在上下文感知领域内的研究产生了变革性的影响,从1326次引用可以看出.其他toolkits已经在研究领域之外取得了成功.例如,D3[14]已经被广泛的用于基于网页的交互式可视化.他们的论文已经说明了评估可能不能代表成功:“尽管我们可以量化性能,可访问性更加难以衡量.D3的设计的真正考验在于用户的接受程度”[14].成功也可能在于推动新研究方向.Proximity Toolkit[64]将人际距离交互概念应用到了具体的构件和技术中.许多人下载toolki为了研究或学习如何构建感知距离.

The need for HCI infrastructure research

HCI系统和toolkit研究促进了进一步研究和了解高级交互概念(比如,空间关系交互[64]).因此,toolkit具象化了这些概念性的想法,促进了进一步的对话和后续研究.例如,Context Toolkit[91]是一个成功的toolkit,它通过使开发人员快速原型化上下文感知应用来推动上下文感知计算[97]研究的发展.这个toolkit提供了基于组件的架构,将上下文结论从使用上下文信息的应用程序中分开,并允许开发人员用事件驱动的方式响应上下文变化.通过具象化这个想法(以及它们在软件层面的实现),Context Toolkit也引发了研究人员的批评,他们认为toolkit中封装的上下文的计算表示没有捕捉人们在现实世界中行为的复杂性.Greenberg[29]认为许多上下文环境是不稳定的,不可识别的或不可预测的,并主张上下文感知应用应该解释推断的上下文以及其如何相应(Bellotti和Edwards所说的"可理解性"[7]).有趣的是,这些讨论导致了在未来系统和toolkit中这些想法的发展和集成,比如Situations框架[19]和Intelligibility Toolkit[58].






