WikiChat: 通过在Wikipedia上进行少样本对齐(Few-shot Grounding)来阻止大型语言模型聊天机器人的幻觉(Hallucination)

WikiChat: 通过在Wikipedia上进行少样本引导来阻止大型语言模型聊天机器人的幻觉

摘要

这篇论文介绍了一种基于少样本学习(few-shot LLM)的聊天机器人,几乎不产生幻觉,具有高度的对话性和低延迟。WikiChat基于英文维基百科,这是最大的精选自由文本语料库。WikiChat利用语言模型(LLM)生成回应,仅保留与事实相关的信息,并将其与从语料库检索到的附加信息结合,形成既真实又引人入胜的回应。我们基于GPT-4对WikiChat进行了提炼,生成了一个7B参数的LLaMA模型,质量损失最小,显著提高了其延迟、成本和隐私性能,便于研究和部署。通过一种新颖的混合人机和LLM评估方法,我们展示了我们的最佳系统在模拟对话中达到了97.3%的事实准确性。它在头部、尾部和最新知识方面显著优于所有基于检索和LLM的基线,相对于GPT-4分别提高了3.9%、38.6%和51.0%。与先前最先进的基于检索的聊天机器人相比,WikiChat在信息量和吸引力上也显著更高,就像一个LLM一样。WikiChat在与人类用户进行有关最新话题的对话中达到了97.9%的事实准确性,比GPT-4高出55.0%,同时获得了更高的用户评分和更多的好评。

结论:本文展示了如何通过LLM(生成式语言模型)创建一个对话性强、事实准确的开放领域聊天机器人。关键的洞察是正确地将从LLM生成的内容与检索到的数据相结合,并进行仔细的逐个声明的事实核查。我们通过创建基于维基百科的WikiChat来验证这一方法,维基百科是最大的手工策划的公共文本语料库。

我们的最佳系统在模拟和实际对话中分别达到了97.3%和97.9%的事实准确性,而GPT-4只能分别达到66.1%和42.9%。WikiChat在对话性方面类似于LLM,并且受到了比GPT-4更高的偏好。

我们还展示了一个经过精炼的LLaMA模型,只有7B参数,可以表现得像一个175B参数的WikiChat G3.5模型,并且比GPT-4更快、更便宜且更准确。这扩展了这项技术的适用性。

1.引言

近期在语言模型聊天机器人(LLM)领域取得的显著进展使它们成为数百万人不可或缺的工具(Hu,2023),这些人已经开始依赖它们广泛的技能集。然而,LLM聊天机器人容易提供误导性信息或产生幻觉(Bang等,2023),通常使用一种令人信服和自信的语言。值得注意的是,LLM在其预训练之后不准确地谈论最近发生的事件,并对较不流行或较不熟悉的主题(Mallen等,2022;Sun等,2023)知之甚少。因此,对于知识密集型任务(Lewis等,2020),用户需要仔细验证他们收到的任何信息,以免受到误导。

本文关注知识密集型对话的三个度量标准:事实性、对话性和延迟。基于知识的聊天机器人首先需要具有事实性。我们假设可以访问一个可信的文本语料库来源;在这里,英文维基百科被认为是事实的。虽然LLM倾向于产生幻觉,但它们可以进行自然而引人入胜的对话,而不是对用户问题给出枯燥的答案。我们将能够提供相关、信息丰富、自然、非重复且时间准确的回答的能力统称为对话性。我们将延迟单独作为焦点的第三个度量,因为解决事实性的方法(如Gao等,2023;Jiang等,2023;Trivedi等,2023;Zhao等,2023)往往会导致较高的延迟,影响用户体验并阻碍采纳。

图1:所有WikiChat组件以及一个有关即将上映电影的样本对话,为简洁起见进行编辑。生成回应的步骤包括(1)生成从维基百科检索的查询(2)总结和过滤检索到的段落(3)从LLM生成回应(4)从LLM回应中提取声明(5)使用检索到的证据对LLM回应中的声明进行事实核查(6)起草回应,以及(7)改进响应

表1:WikiChat和基线在模拟对话中的评估结果。事实和时间准确性以百分比表示。其他指标是1到5之间整数的平均值(包括1和5),我们报告它们的均值和标准偏差。事实准确性来自人工评估,其他指标来自少样本的GPT-4。对于所有指标,数值越高越好。

在“全部”部分,通过p ≤ 0.05以统计学显著方式优于其可比较模型(例如,WikiChat G4 vs. GPT-4)的值被强调显示。

表2:每个聊天机器人的平均成本(美分)和延迟(秒)。LLaMA模型在本地GPU上运行,成本可以忽略不计。

表3:用户研究结果。用户评分差异在p ≤ 0.05的情况下具有统计学显著性(t = 2.18,p = 0.03)。

全文过长,如果有喜欢的欢迎私信作者索取全文。WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia (arXiv的文章应该不需要特色上网)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值