Google给AI出了UX设计指南-CSDN博客

本文由「AI前线」原创，原文链接： Google给AI出了UX设计指南
策划编辑｜Natalie
作者｜Josh Lovejoy
编译｜Debra，薛命灯

AI 前线导读：”AI 的作用不应该只是大海捞针，而是帮助我们拨开云雾，让我们自己去发现明月。通过 Google 的 AI 产品 Google Clips，让我们来看看以人为本的设计是如何让 AI 上升到另一个高度的。”

就像移动革命以及之前的互联网一样，机器学习让我们重新思考、构思并考虑我们过去所获得经验还有多少可能性。在 Google UX 社区中，我们开启了一项名为“以人为中心的机器学习”项目，以引导关于这个话题的讨论和关注。透过镜头，我们来看看机器学习（ML）产品如何用独特的方式解决人类的需求。这个项目是 Google 团队的成果，旨在让 UXers 们了解核心 ML 的概念，以及如何用最佳的方式将 ML 整合到 UX 工具带中，并确保以包容的方式构建 ML 和 AI。

Google Clips 相机捕捉的父母、孩子和宠物的真实场景

Google Clips 是一款智能相机，设计的初衷是用来捕捉用户熟悉的人和宠物最真实的时刻。这款相机能够完全凭借设备上的机器智能，专注于学习和你在一起度过时光的人或宠物，并能够理解怎样拍出漂亮和令人难忘的照片。以 Google Clips 作为案例，我们将回顾三年来这款产品从在设备上建模、工业设计到用户界面建立过程中的核心要点，以及在 AI 驱动产品实践中以人为本的设计理念。

使用 Google Clips 可以选择完美的框架（上图左侧），并保存为一张静止图像（上图右侧）。在这个例子中，我把相机夹在篮筐上，捕捉我儿子投篮的瞬间

如果不符合人的需求，即使系统功能再强大，也仅能解决小问题，或者根本解决不了问题。

仅仅让更多的 UXers 使用 ML 产品是不够的。让他们了解某些核心 ML 的概念，理解 AI 及其功能的理念，以最好的性能来构建和维护用户的信任是至关重要的。

从确定哪些模型对构建有用，到数据收集、注释、新型原型和测试，ML 生命周期中的每一个阶段都是创新的时机。

以下是为什么我们认为采用以人为本的理念来构建由 ML 驱动的产品和系统非常重要：

机器学习不会找出需要解决的问题。如果不符合人的需求，即使系统功能再强大，也仅能解决小问题，或者根本解决不了问题。
如果 AI 系统的目标不透明，用户对校准系统的作用认识不清，那么他们对 AI 会形成一种固化印象，影响他们的信任感。
为了发展，机器学习必须是跨学科的。即便不是这么绝对，但作为社会系统挑战的同时也可以被视为一项技术挑战。机器学习是一门根据在数据中自动发现的模式和关系进行预测的科学。 ML 模型的工作就是要弄清楚这些模式的重要性，以达到最大的准确性。但是，它的任务不仅这一个。ML 的每一个方面都是由人的判断推动和调解的，首先从建立模型的思路，选择训练的数据源，样本数据本身以及用于描述它的方法和标签，到上述定义错误和正确性的标准。一言以蔽之，UX 界的公理“你不是用户”在这里比以往任何时候都更重要。

三种以人为中心的设计理念让 AI 更上一层楼

解决人类真正的需求今年，人们将拍摄大约一万亿张照片，这对我们大多数人来说，它们只是一个不会再去翻阅的照片库而已。新生儿父母尤其如此，他们的生活充满了人生中的第一次。在那些值得纪念的珍贵时刻，用户会选择拿出他们的手机捕捉下这些美好的瞬间。结果，这样导致他们往往只能通过一方小小的屏幕来观看这个世界，而不是用他们所有的感官进行互动。

作为一个新的父母，你的图库可能看起来和我的一样，为了抓拍到完美可爱的表情而进行连续拍摄。

如果我们能够设计一款产品，能够帮助我们记录下我们关心的人的每个瞬间呢？如何我们可以出现在照片中，而不是总是在照相机之后呢？如果我们能够及时拍摄下照片，而不必因必须停下来，拿出电话，打开相机，打开镜头而破坏了兴致？而且，如果我们能够让摄影师在我们身边捕捉到更多真实的生活时刻，比如我的孩子真实的微笑，应该怎么办？这就是我们要解决的问题。

为信息做引导

当我们开始这项工作的时候，最迫切需要解决的问题是：如果人们拍摄了大量的照片，但实际上并不想回头去管理它们，那么我们将如何标注这些照片呢？这催生了基础的“HCML exercise”：描述理论上的人类“专家”今天可能执行的任务。这个理论包括两层含义：首先，人类完不成的任务 AI 也不可能完成；其次，通过深入研究专家的方法，我们可以找到引导信号的数据收集、标签和模型架构。

人类无法完成的任务，AI 也无法完成。

我能想到与此最贴近的例子就是婚礼摄影师，所以我开始用一个非常模糊的招聘信息成功诱惑一名纪录片制作人，一名摄影记者和一名美术摄影师来面试并签了合同，组成团队来回答这个问题：让人难忘的时刻是什么样的？

在评估我们的照片和视频的质量时，我们必须认识到被我们当做理所当然的细微差别、审美本能和个人经历是非常重要的。例如，每当我看到我的小儿子在折腾一个弯折的吸管（最左），或者躲开我不让我亲他的脸颊（中间），我就会感到有点崩溃。当我看到我的大儿子在公园里骑自行车的时候，我非常自豪，因为我记得那一天他终于敢自己骑自行车了。

建立信任

我们这项工作的出发点，是假设我们可以向模型输入我们认为漂亮而有趣的素材，而且它知道如何找到更多类似的东西。我们曾经谈过关于景深、三分法则、戏剧性照明、讲故事等话题，但我从中学到一点，就是永远不能低估人类运用常识的能力。

这些早期的实验暴露了技术和方法上的鸿沟，这些差距帮助我们重新评估了这款产品可以实现的目标，以及这项工作的性质。我们把范式从将 ML 放在显要地位，转变为了解到只有在相当简化的框架下才能有效地学习。基本上，我们正在通过阅读莎士比亚而不是 Go、Dog.Go! 来教两岁小孩英语。这就是 AI 这个“庞然大物”的神话对我来说最难对付的地方，即世界上存在一种可以理解所有事物，并可以根据知识进行上下文理解的”智能“这种想法。不可能，这离实现还差得很远。

回归本源

一致性在所有知识教授过程中都很重要。这就是为什么我们在教孩子阅读和说英语时，尽可能花较长时间让他们理解 O-U-G-H（例如 tough, through, thorough）。与"at"的发音联系起来以后，他们就会理解 cat、 bat 和 sat 等单词发音的一致性。

然而，算法不会提供这样的反馈。就算法而言，除非另有指示，否则所显示的所有内容都具有相同的价值。对于 Clips，这意味着每个示例之间都需要具有一致性。每一个单独的框架都需要代表我们正在试图教授的具体预测，而且往往可以教会它需要忽略什么。

捕捉

我们需要针对以下几种场景来训练模型：手挡住镜头、快速移动、模糊强度。

我们以上面的场景作为例子来训练模型，左边是相机放在口袋或手袋里的场景，右边是手指或手掌挡住了部分镜头的场景。我们无法立竿见影地将模型训练到能够忽略掉某些内容，但从长远来看，这是我们整个设计的重要组成部分。排除掉无需处理的内容，就能捕捉到更高质量的视频短片。

构图

我们还要针对稳定性、锐度和取景构图来训练模型。人脸识别模型很容易把处于取景框边缘的人脸与取景框中间的人脸同等对待。

要想让模型保持被摄主体的连续性，需要让主体突出。左上是我的小儿子一直处于取景框中，右上是我的大儿子只有一半时间处在取景框内。

社交基准（social norms）

亲密度是摄影的基础之一。你把相机对准某人，他们做出表情或摆出姿势，默许你的拍摄，而且你正是通过取景器进行取景构图的那个人。而如果使用的是自动相机，那么就需要根据社交线索来判断被摄主体的亲密度，比如你与他们在一起相处时间的长短、他们是否经常出现在相机的取景框内。

编辑

在拍摄照片时，多拍几张是件理所当然的事，也就是要保持多元性。我们会觉得已经拍得够多了，但在训练模型时确实需要大量的照片。

我们会从三个维度考虑多元性：

时间：连续的拍摄时间点是很重要的，千万不要在很长一段时间内什么都不拍。
视觉：场景中的颜色变化表示环境或活动物体也发生了变化，所以要尽量捕捉到不一样的瞬间。
人物：场景中的人物是一大群人还是一小群人，抑或是只有一个人？了解场景中有多少张人脸，避免错失重要的瞬间。

我把 Clips 放在书架上，从上向下拍摄我儿子的活动。相机在很长一段时间内拍摄到的都是相似的内容。要想避免太多不必要的冗余但又想不错失重要瞬间，这对于 UX 来说是个不小的挑战。

信任度和自我效验

我们在 Clips 上投入，并不是因为它具备多么强大的功能，而是因为它能够在设备上进行不外泄隐私的机器学习。相机属于个人物品，我们竭尽全力来保证设备和内容最终都只属于用户自己。没有征得用户的同意，所有的东西都只会呆在设备上。

概念设计

在考虑信任度和自我效验的同时，我们也在考虑如何做好 UI 设计。在刚启动项目的时候，我们只能自作假设一个 AI 产品应该是什么样子的。

在参考未来科技风格的设计时，很多设计师会想到电影《少数派报告》（Minority Report）和《银翼杀手》（Blade Runner）。但如果真的要像《少数派报告》电影里那样向用户展示 UI，看起来真的很疯狂：伸开你的手臂，等上两秒钟，抓一把空气，反方向转动手掌并向右甩。就是这么简单！几乎所有的科幻 UI 都很相似，似乎交互模型一定要与它所在的系统保持步调一致。在设计的早期阶段，我们也是这么想的，但后来我们基于以下几点原因还是放弃了这种想法：

我们在模拟环境里向用户展示虚拟的内容，无法在他们与影像之间建立起真实的连接。这个问题不只在 AI 中存在，在可用性实验室里，人们也经常碰到这个问题。
我们每天遇到的人都讲的是相同的语言，对 AI 也都有深入的思考。如果我们错过了他们的想法，可能会犯下大错。
我们认为我们的新设计非常酷，所以会先自我认同，但其他人可能还不能立即理解我们设计的含义。

大部分产品都有一定的学习曲线，而有了 AI 的加入，就更要注重了解用户的认知。如果用户对产品感到新奇（图 A），那么就着重强调其信任度。如果用户需要学习使用大量的 UI 元素（图 B），那么就确保用户能够掌握主要的使用场景。如果产品的功能高度动态化（图 C），那么就需要应用用户熟悉的模式。

我们开始疯狂地降低 UI 的复杂度，将可控性和熟悉度作为体验框架的基础。我们在相机上增加了一个软件取景器和一个物理捕捉按键。我们要确保用户能够自己决定拍摄内容的好坏，从视频短片里的静止帧到其中的某一段内容。我们尽可能多地向用户展示拍摄内容，他们可以选择删除不想要的，这样他们就能够更好地了解相机想要捕捉什么，并相信相机在以后能够拍摄到想要的画面。

硬件、智能和内容只属于你自己

在测试 AI 产品的过程中，我们有一个重大的发现：在真正成功之前先假装成功。如果一定要做出选择，那么使用用户真实内容来创建 UX 原型要比使用真实的机器学习模型要有用得多。后者需要更长的时间，而前者能够让你了解用户对产品的期待。

用户在设备上浏览视频短片。左边，用户选择他们想要的短片，并保存到手机上。中间，用户可以打开“推荐”模式。右边，用户可以选择静止帧并保存成图片。

从主观性和个人定制化方面来看，我们做不到完美，这不应该成为我们的主要目标。与传统的软件开发不一样，机器学习系统是做不到无 bug 的，因为预测分析本身就是一门带有不确定性的科学。但也正是因为不确定性，机器学习才变得如此有用。Clips 的目标不仅仅是要实现视频的保留、删除、点击和编辑（尽管它们确实也很重要），它更关注原创、共同学习和改编。

有意图的设计

传统的 AI 是要让机器变得更聪明，而如果我们是以增强人类的能力为目的，那么就有可能释放出机器学习更多的潜能。机器学习将成为史无前例的创新工具，帮助我们认识存在于我们自身和世界之中的模式。我们有望通过 AI 来塑造一个更加人性化的世界，当然，我们会时刻记住根植于心中的理念：找出和解决人类真正的需求，增加人类的价值，为了增强而不是自动化而设计。

AI 的作用不应该只是大海捞针，而是帮助我们拨开云雾，让我们自己去发现明月。

原文链接：

design.google/library/ux-…

更多干货内容，可关注AI前线，ID：ai-front，后台回复「AI」、「TF」、「大数据」可获得《AI前线》系列PDF迷你书和技能图谱。