点击 --> 星标 ,收藏知识
HCI Deep Dives#一个专注于人机交互(HCI)领域播客节目
是不是经常能看到 LLM 类的产品,会备注内容是AI生成的,请仔细检查。这种提示应该如何设计到产品里才能提高用户使用 LLM 产品的有效性?这篇论文做了相关的研究,值得一看:
https://dl.acm.org/doi/pdf/10.1145/3706598.3714097
看看用几种不同的方式来呈现大型语言模型(AI)的建议,能不能帮助人们更好地利用这些建议,也就是在AI建议是对的时候听从,在AI建议是错的时候不听,避免犯错或错过好的建议。
研究找了400人,让他们做两种任务:一种是逻辑推理题(像考试选择题),另一种是看图估算数量(像猜罐子里有多少豆子)。参与者先自己答题,然后看AI给的建议(AI建议有时是对的,有时是错的),最后再给出最终答案。研究人员比较不同情况下,人们是怎么采纳或不采纳AI建议的。
以下是这四种方法的介绍和它们的表现:
1. 对照组 (Control)
这是什么? 这是最普通的方式,就像你平时直接问AI问题,它会给出一个明确的建议答案(比如逻辑题选哪个,或者豆子有多少个)。还会给一两句话简单解释为什么是这个答案 。
结果:
✔ 人们普遍觉得AI的建议很有用、很准确,看了建议后信心大增(即使建议是错的,信心也可能增加)。对于估算数量的任务,很多人会选择完全照搬AI的数字。处理建议也不用花太多时间。总体表现比自己一个人做要好。
❌ 虽然有帮助,但人们很容易犯错:有时候不小心听了错误的建议,有时候又错过了正确的建议。而且他们的信心和实际情况很不匹配,即使听了错误的建议反而更自信,这非常糟糕。
2. 依赖免责声明 (Reliance Disclaimer)
这是什么? 在对照组给出的明确建议和解释,解释后固定加上一句提醒,比如“请记住验证此信息……”。这句话是想提醒你AI可能有局限,要谨慎使用。
结果:
✔ 在逻辑推理题中,这是唯一一个显著改善人们使用AI建议的方式(既减少听从错误建议,又减少错过正确建议)的方法 。在逻辑推理题中,它还帮助人们更好地调整信心,听错建议时增加的信心比听对建议时要少。处理建议的时间没有显著增加。这是个非常简单就能实现的方法。
❌ 在估算数量的任务中没啥用。这种固定的提醒可能时间长了人们就习惯了、忽略了(“警报疲劳”)。人们觉得AI的建议不如对照组那么准确或有用 。
3.不确定性高亮 (Uncertainty Highlighting)
这是什么? 在对照组的明确建议和解释里,用颜色(红色或粉色)标出AI自己觉得“不确定”的词。颜色深浅代表不确定程度。
结果:
✔ 在逻辑推理题中,它增加了人们坚持自己答案的倾向。在估算数量任务中,它让人们不太倾向于完全照搬AI的数字。
❌ 总体上没有显著改善人们使用AI建议的方式。这个方法让人们非常不喜欢AI的建议,觉得它不准确、没啥用,也不怎么增加信心。评分在所有方法中最低。它可能让人对AI产生反感,而不是更懂得如何使用。在逻辑推理题中,人们听错建议时反而更自信,信心变得更不准确。处理建议的时间显著增加。背后高亮的原理(基于模型生成词的概率)人们可能很难理解和有效利用。
4.隐式回答 (Implicit Answer)
这是什么? AI给出建议和解释,但不直接告诉你最终答案,或者你需要自己动手算一下才能得到AI推荐的数字。比如逻辑题只给出支持某个选项的论证,估算题给出计算步骤但不写最后的结果。这等于让你多花一点心思才能知道AI到底推荐什么 。
结果:
✔ 在两个任务中都显著增加了人们坚持自己答案的倾向。在估算任务中,它有助于让人们在正确决定时(听好的建议或坚持自己的好答案)比错误决定时信心增加更多。
❌ 总体上没有显著改善人们使用AI建议的方式 。在估算任务中,它导致人们错过好的建议更多。处理建议的时间显著增加,有时几乎是普通方法的两倍 。人们可能觉得费劲提取答案不值得。人们对AI建议的主观感受也比对照组差 。
总的来说,研究发现这些方法通常能减少人们听从错误建议的情况,但要同时帮助人们不错过正确的建议,从而更好地使用AI建议,这是一个更难的挑战。简单的提醒(免责声明)在某些任务中可能比复杂的方法更有效。让人们花更多时间看建议,不一定就能让他们更好地使用建议。而且,设计这些方法时,需要考虑不同的任务类型可能会导致完全不同的效果。
填写表格
加入社群