生成式AI工具的用户体验设计

最新推荐文章于 2024-10-18 12:27:51 发布

新缸中之脑

最新推荐文章于 2024-10-18 12:27:51 发布

阅读量1.3k

点赞数 12

文章标签：人工智能

本文链接：https://blog.csdn.net/shebao3333/article/details/141205781

版权

唐纳德·诺曼 (Don Norman) 1988 年出版的设计经典著作《设计心理学》 (The Design of Everyday Things) 阐述了用户体验原则，这些原则自此影响了伟大的硬件和软件设计。

虽然诺曼借鉴了门把手和电灯开关等模拟示例，但他的原则广泛适用于软件，包括生成式AI产品。随着对生成式AI的炒作，人们很容易忘记，即使是最复杂的模型驱动的产品，如果缺乏良好的 UI/UX，也会失败。

许多新的AI工具引起了人们的极大兴趣，但随之而来的是用户留存率低迷，正如红衫资本在此处详述的那样。人工智能炒作推动了“游客”注册，但新用户很难理解或从产品中获得真正的价值。这是典型的“幻灭低谷”，当核心技术（生成模型）领先而支持技术（UI/UX 设计）落后时就会发生这种情况。

这篇文章详细介绍了如何将三个核心 UX 概念应用于生成式人工智能产品：1) 反馈2)可供性和 3) 约束。将这些概念应用于生成式 AI 可以得出我们将要探讨的结论，包括：

不要以一杆进洞为目标
用户反馈不是免费的
以怀疑的态度对待聊天机器人界面

以下示例取自工作场所生产力工具，部分灵感来自我在 Tome（一种用于塑造和分享想法的 AI 驱动媒介）工作时所学到的知识，但这些策略应用广泛，从开发工具到社交媒体再到电子商务。

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、关于反馈

对于任何技术而言，向用户提供关于所请求操作的快速、清晰的反馈（feedback）都至关重要。由于生成式 AI 系统的输出具有延迟性和复杂性，因此反馈对于生成式 AI 系统尤其重要。而且反馈是双向的。系统必须征求用户的相关反馈，且不能令人反感，以便在短期内为特定用户生成更好的输出，并在中期或长期内实现更好的产品版本。

1.1 针对延迟进行构建

生成式 AI 模型的响应时间通常为个位数到两位数秒。乍一看，等待十秒钟来获得一份引人注目的备忘录、一张精彩的图片或一段精美的视频似乎不是什么问题。如果没有生成式 AI，这些操作需要数小时——谁在乎需要 10 秒、1 秒还是 100 毫秒？

但用户并不是优化机会成本的经济学家。他们已经被非 AI 工具所习惯，期望软件速度如此之快，以至于被认为是即时的。这导致用户在使用明显非即时 AI 产品时面临许多挑战：

对系统是否正常工作以及是否需要重试/重新启动感到困惑。
迭代成本高。而且由于大多数情况下 AI 生成的第一个工件并不完全是用户想要的，因此用户希望进行迭代。
用户很可能开始进行多任务处理。一旦用户离开您的应用，就不能保证他们会回来。

有一些很好的策略可以减轻生成 AI 之前的延迟影响。这些策略包括加载动画、进度条和后台处理（其中用户被路由到另一个任务并在当前任务完成时收到通知）。一种较新的策略，特定于 LLM 功能，是将文本逐字（或逐字符）流式传输到 UI，而不是一次渲染完整的输出。由于许多模型可以比用户阅读更快地生成单词，因此可以将感知延迟降低到接近零。

1.2 不要以一杆进洞为目标

一种特别有效的缓解延迟的策略是将工作流程分解为小步骤，其中提供系统反馈并在每个步骤征求用户反馈。这允许用户在越来越有信心地向输出前进时，相信系统将准确地提供用户想要的内容。在精心设计的迭代工作流程中，初始步骤的延迟很低——并且用户对最终输出将是他们想要的信任会随着每个后续步骤而增加。如果你非常有信心你将获得想要的工件，那么你将愿意等待十秒钟来运行最后一步。

迭代工作流程具有比提高延迟容忍度更强大的优势：它们使用户能够生成更符合他们期望的输出。生成模型有时只需一个简单的用户提示就可以生成用户想要的内容。从输入直接到“确定”最终输出是一种令人惊叹的用户体验；这就像一杆进洞。而且像一杆进洞一样，这种情况非常罕见。

挑战不在于模型有多“智能”，而在于模型需要什么样的背景和信息来产生用户的愿景。假设有一位销售经理想要总结她团队的季度业绩。她看过几十份季度销售报告，并且非常熟悉公司管理这些产品的规范（例如语气、细节程度、长度和视觉布局）。如果她需要同事为她写一份这样的报告，她会直接要求“一份季度销售报告”，并期望同事已经知道这些规范。

因此，当这位销售经理想要从 AI 工具中获取这样的报告时，她并不清楚需要告诉工具什么规范，以及工具已经知道什么。这就是迭代工作流程特别有用的地方。她可以从一些简单而熟悉的事情开始，比如请求“一份季度销售报告”，然后工具可以帮助她准确地找到她想要的东西。扎克·劳埃德 (Zach Lloyd) 在这篇有关人工智能设计的论证充分的文章中将这种模式称为“询问并调整”。

例如，Tome 的大纲编辑器是迭代 AI 工作流程中的一个中间步骤的示例，位于提示和最终输出（多页演示文稿）之间：

1.3 用户反馈并非免费

在许多经典的 ML 产品中，每次用户交互都会为模型生成新的训练数据，从而改进产品的下一个版本。每次用户点击搜索结果都有助于搜索模型的改进。每封用户标记为垃圾邮件的电子邮件都有助于垃圾邮件分类模型的改进。

但许多生成式 AI 产品缺乏固有的“物理”，即用户交互机械地导致模型改进。对于输出是复杂的文本、图像等的 AI 产品，很难区分沮丧的退出（用户无法获得他们想要的输出并退出）和满意的退出（用户得到了他们想要的东西并离开）。有些产品会征求选择加入的反馈（例如赞成/反对），但完成率往往非常低，反馈本身往往受到选择偏差的影响。

最好设计一个工作流程，让用户的自然下一步行动表明他们对先前 AI 输出的看法。一种最常见的模式是文本模型中的内联建议：如果用户接受建议并继续书写，这是一个强烈的信号，表明他们对该建议持积极态度。另一种模式是测量哪些 AI 输出被保存、编辑或共享。这些并不完全与用户满意度相关——用户可能会因为某张图片特别奇怪而分享它——但总体而言，它们是不错的指标。

2、关于可供性

可供性（affordance）是一种提示（通常是视觉提示），用于提示如何以及何时使用某个功能。良好的可供性使用户能够直观地与产品交互，而无需大量说明或经验。我们将在用户旅程的三个步骤中探索生成式 AI 的可供性：发现 AI 的切入点、为 AI 提供正确的输入以及使用 AI 输出。

2.1 发现 AI 切入点

许多工作工具都添加了大量 AI 功能，这些功能适用于创作过程的不同阶段。使用 AI 功能的高级切入点包括：

帮助我从头开始
扩展我已开始的内容
编辑我已创建的内容

即使在 AI 界面发展的早期阶段，这些不同的切入点也导致了截然不同的界面。对于 (1)，自由文本或“空白画布”界面已成为早期的领先范例。对于 (2)，内联生成（又称自动完成）往往主导文本生成功能（如 Github Copilot），而“显示更多类似内容”往往主导图像生成功能（如 Midjourney）。对于 (3)，界面往往侧重于突出显示、选择或上传现有内容（如 Grammarly）。

Whimsical 的 AI 思维导图可帮助用户从头开始。https://whimsical.com

对于在具有多种 AI 功能的工具中发现一个 AI 入口点的用户，很容易得出“这就是 AI 所在的地方”的结论，而无法发现其他功能。优秀的产品通过在用户工作流程中每个入口点最有可能有用的时候向用户介绍他们的各种 AI 入口点来缓解这种情况。

2.2 输入 AI 的输入

许多生成式 AI 工作流程的核心输入是自由文本输入，又称“提示”。不幸的是，好的提示很复杂、快速发展，并且在不同工具之间不一致。好的产品可以帮助用户使用包括示例提示和工具提示在内的策略来制作提示。

Perplexity 在其着陆页上包含了一些示例提示，以说明超出典型搜索引擎的用例。https://www.perplexity.ai/

良好的界面还可以帮助用户了解 AI 所具有的上下文以及它所缺乏的内容。在使用强大的 AI 时，理性的用户可能会得出结论，他们在应用程序中看到的任何内容，AI 也必须能够看到和理解。

例如，如果我可以看到我过去与 AI 的对话，那么 AI 肯定也知道这一点（这是 ChatGPT 推广的一种行为）。但并不是每个 AI 都这样工作！有些系统知道用户之前的提示，有些系统知道比过去提示更多的上下文——有些系统只知道用户当前的交互，而没有其他内容。用户不应该通过反复试验来弄清楚系统知道什么和不知道什么。

2.3 使用 AI 输出

人们很容易认为，当系统产生了生成性 AI 输出，并且输出很好时，成功就在眼前。但即使输出效果很好，这也会让用户感到困惑。

首先，新用户经常不知道如何保留输出。即使输出效果很好，许多用户也会立即想要迭代，看看他们能否从好变得更好。但担心他们可能会失去现有的工作可能会导致犹豫和沮丧。

其次，用户可能会对如何改进输出感到困惑。假设他们使用了“从头开始”的 AI 功能，他们应该回到头开始吗？他们是否需要转到不同的 AI 入口点，如“扩展”或“编辑”？许多用户会遇到像 ChatGPT 这样的产品，其中输出不能直接编辑；如果输出是可编辑的，用户可能需要编辑功能。

3、关于约束

约束（constraints）限制输入和输出，以帮助用户更快更好地工作。好的约束对用户来说是清晰的。如果系统可以帮助用户实现目标——但只能部分地或部分时间地实现——那么最好完全阻止这条路径，而不是提供不可靠的体验。

LLM 开辟了广阔的新用户体验（这就是我喜欢研究它们的原因！），产品创造者应该渴望放宽确定性软件的传统约束。尽管如此，无论 LLM 变得多么智能，总会有一些深思熟虑的约束。

3.1 输入：不要害怕使用多个控件

受 ChatGPT 成功的启发，许多生成式 AI 工具使用自由文本框作为其唯一或主要的用户输入。但用户意图的许多方面最好通过分类或数字输入来表达。在创建文档时，大多数用户都会考虑语言（分类）和长度（数值）等属性。用户可能不会在自由文本提示中提及这些属性，但这并不意味着他们不关心它们。通过离散的、有界的控件（如下拉列表或滑块）征求此输入，系统有助于征求所需的输入，以提供用户脑海中的内容。并且有一些历史悠久的原则可以帮助用户浏览离散控件：设置良好的默认值、按逻辑对控件进行分组以及使用工具提示或标签解释控件。

对于控件，设置良好的默认值是设计的关键部分。绝大多数时间（超过 90%）用户不会更改默认值，即使这样做会给他们带来好处。将良好的默认值与用户偏好差异相结合的一个机会是通过硬编码规则或 AI 动态调整默认值。

3.2 输出：并非所有生成的内容都需要输出

对于生成式 AI 产品，在许多情况下，底层模型可以生成一些内容，但用户不会产生任何内容，而是会纠结于误导性或不和谐的输出。

对于大多数与工作相关的任务，用户更喜欢“我不知道”，而不是必须验证或反驳的潜在错误答案。咨询公司 BCG 的这项哈佛研究表明，当 AI 回答超出其“信心边界”的问题，而用户不知道边界在哪里，没有充分审查输出时，AI 会如何降低工作质量。

减少幻觉的方法正在快速发展（例如，检索增强生成），我怀疑幻觉几年后将成为一个基本“解决”的问题——但今天，事实性至关重要的输出仍然是考虑约束的重要地方。

法律和道德问题是限制面向用户的输出的第二个原因。仅仅因为底层模型可以生成有关某个主题的文本或图像并不意味着这样做是合理的。然而，很多时候系统将用户请求归类为“超出范围”，而用户的意图实际上是善意的。在一点帮助下，用户可以重新措辞他们的请求以保持在范围之内。例如，一些图像生成工具会拒绝包含单词“孩子”的提示。但如果用户想要生成一张有孩子的家庭照片，他们可以提示“四口之家”或“父母与儿子和女儿”。关键是约束对用户来说是明确的。

4、结束语

随着生成式人工智能产品越来越受欢迎，优秀的产品设计师和产品经理要记住：成功不仅取决于人工智能有多聪明，还取决于产品如何引导用户完成人工智能支持的工作流程。反馈、可供性和约束等核心设计概念仍然和以往一样重要，但它们的实施方式和模式正在迅速演变。对于任何希望超越最初的炒作周期并推出持久、广泛使用的产品的人工智能公司来说，充分利用这些设计模式都至关重要。

原文链接：生成式AI工具的UX设计 - BimAnt