用户采纳AI建议的研究#CHI2025有哪些知识？-CSDN博客

本文链接：https://blog.csdn.net/shadowcz007/article/details/147795630

点击 --> 星标，收藏知识

如何设计垃圾的用户体验？

如何构建用于伦理推测的设计小说？

HCI Deep Dives#一个专注于人机交互(HCI)领域播客节目

个性化技术如何在不同领域“搞事情”？

构建一个可解释的AI系统的简明指南

是不是经常能看到 LLM 类的产品，会备注内容是AI生成的，请仔细检查。这种提示应该如何设计到产品里才能提高用户使用 LLM 产品的有效性？这篇论文做了相关的研究，值得一看：

https://dl.acm.org/doi/pdf/10.1145/3706598.3714097

看看用几种不同的方式来呈现大型语言模型（AI）的建议，能不能帮助人们更好地利用这些建议，也就是在AI建议是对的时候听从，在AI建议是错的时候不听，避免犯错或错过好的建议。

研究找了400人，让他们做两种任务：一种是逻辑推理题（像考试选择题），另一种是看图估算数量（像猜罐子里有多少豆子）。参与者先自己答题，然后看AI给的建议（AI建议有时是对的，有时是错的），最后再给出最终答案。研究人员比较不同情况下，人们是怎么采纳或不采纳AI建议的。

以下是这四种方法的介绍和它们的表现：

1. 对照组 (Control)

这是什么？这是最普通的方式，就像你平时直接问AI问题，它会给出一个明确的建议答案（比如逻辑题选哪个，或者豆子有多少个）。还会给一两句话简单解释为什么是这个答案。

结果：

✔ 人们普遍觉得AI的建议很有用、很准确，看了建议后信心大增（即使建议是错的，信心也可能增加）。对于估算数量的任务，很多人会选择完全照搬AI的数字。处理建议也不用花太多时间。总体表现比自己一个人做要好。

❌ 虽然有帮助，但人们很容易犯错：有时候不小心听了错误的建议，有时候又错过了正确的建议。而且他们的信心和实际情况很不匹配，即使听了错误的建议反而更自信，这非常糟糕。

2. 依赖免责声明 (Reliance Disclaimer)

这是什么？在对照组给出的明确建议和解释，解释后固定加上一句提醒，比如“请记住验证此信息……”。这句话是想提醒你AI可能有局限，要谨慎使用。

结果：

✔ 在逻辑推理题中，这是唯一一个显著改善人们使用AI建议的方式（既减少听从错误建议，又减少错过正确建议）的方法。在逻辑推理题中，它还帮助人们更好地调整信心，听错建议时增加的信心比听对建议时要少。处理建议的时间没有显著增加。这是个非常简单就能实现的方法。

❌ 在估算数量的任务中没啥用。这种固定的提醒可能时间长了人们就习惯了、忽略了（“警报疲劳”）。人们觉得AI的建议不如对照组那么准确或有用。

3.不确定性高亮 (Uncertainty Highlighting)

这是什么？在对照组的明确建议和解释里，用颜色（红色或粉色）标出AI自己觉得“不确定”的词。颜色深浅代表不确定程度。

结果：

✔ 在逻辑推理题中，它增加了人们坚持自己答案的倾向。在估算数量任务中，它让人们不太倾向于完全照搬AI的数字。

❌ 总体上没有显著改善人们使用AI建议的方式。这个方法让人们非常不喜欢AI的建议，觉得它不准确、没啥用，也不怎么增加信心。评分在所有方法中最低。它可能让人对AI产生反感，而不是更懂得如何使用。在逻辑推理题中，人们听错建议时反而更自信，信心变得更不准确。处理建议的时间显著增加。背后高亮的原理（基于模型生成词的概率）人们可能很难理解和有效利用。

4.隐式回答 (Implicit Answer)

这是什么？ AI给出建议和解释，但不直接告诉你最终答案，或者你需要自己动手算一下才能得到AI推荐的数字。比如逻辑题只给出支持某个选项的论证，估算题给出计算步骤但不写最后的结果。这等于让你多花一点心思才能知道AI到底推荐什么。

结果：

✔ 在两个任务中都显著增加了人们坚持自己答案的倾向。在估算任务中，它有助于让人们在正确决定时（听好的建议或坚持自己的好答案）比错误决定时信心增加更多。

❌ 总体上没有显著改善人们使用AI建议的方式。在估算任务中，它导致人们错过好的建议更多。处理建议的时间显著增加，有时几乎是普通方法的两倍。人们可能觉得费劲提取答案不值得。人们对AI建议的主观感受也比对照组差。

总的来说，研究发现这些方法通常能减少人们听从错误建议的情况，但要同时帮助人们不错过正确的建议，从而更好地使用AI建议，这是一个更难的挑战。简单的提醒（免责声明）在某些任务中可能比复杂的方法更有效。让人们花更多时间看建议，不一定就能让他们更好地使用建议。而且，设计这些方法时，需要考虑不同的任务类型可能会导致完全不同的效果。

填写表格

加入社群