WikiChat: 通过在Wikipedia上进行少样本对齐（Few-shot Grounding）来阻止大型语言模型聊天机器人的幻觉（Hallucination）

最新推荐文章于 2024-06-12 11:22:03 发布

Max-小郭

最新推荐文章于 2024-06-12 11:22:03 发布

阅读量43

点赞数

文章标签：语言模型人工智能自然语言处理

原文链接：https://arxiv.org/abs/2305.14292

版权

WikiChat: 通过在Wikipedia上进行少样本引导来阻止大型语言模型聊天机器人的幻觉

摘要

这篇论文介绍了一种基于少样本学习（few-shot LLM）的聊天机器人，几乎不产生幻觉，具有高度的对话性和低延迟。WikiChat基于英文维基百科，这是最大的精选自由文本语料库。WikiChat利用语言模型（LLM）生成回应，仅保留与事实相关的信息，并将其与从语料库检索到的附加信息结合，形成既真实又引人入胜的回应。我们基于GPT-4对WikiChat进行了提炼，生成了一个7B参数的LLaMA模型，质量损失最小，显著提高了其延迟、成本和隐私性能，便于研究和部署。通过一种新颖的混合人机和LLM评估方法，我们展示了我们的最佳系统在模拟对话中达到了97.3%的事实准确性。它在头部、尾部和最新知识方面显著优于所有基于检索和LLM的基线，相对于GPT-4分别提高了3.9%、38.6%和51.0%。与先前最先进的基于检索的聊天机器人相比，WikiChat在信息量和吸引力上也显著更高，就像一个LLM一样。WikiChat在与人类用户进行有关最新话题的对话中达到了97.9%的事实准确性，比GPT-4高出55.0%，同时获得了更高的用户评分和更多的好评。

结论：本文展示了如何通过LLM（生成式语言模型）创建一个对话性强、事实准确的开放领域聊天机器人。关键的洞察是正确地将从LLM生成的内容与检索到的数据相结合，并进行仔细的逐个声明的事实核查。我们通过创建基于维基百科的WikiChat来验证这一方法，维基百科是最大的手工策划的公共文本语料库。

我们的最佳系统在模拟和实际对话中分别达到了97.3%和97.9%的事实准确性，而GPT-4只能分别达到66.1%和42.9%。WikiChat在对话性方面类似于LLM，并且受到了比GPT-4更高的偏好。

我们还展示了一个经过精炼的LLaMA模型，只有7B参数，可以表现得像一个175B参数的WikiChat G3.5模型，并且比GPT-4更快、更便宜且更准确。这扩展了这项技术的适用性。

1.引言

近期在语言模型聊天机器人（LLM）领域取得的显著进展使它们成为数百万人不可或缺的工具（Hu，2023），这些人已经开始依赖它们广泛的技能集。然而，LLM聊天机器人容易提供误导性信息或产生幻觉（Bang等，2023），通常使用一种令人信服和自信的语言。值得注意的是，LLM在其预训练之后不准确地谈论最近发生的事件，并对较不流行或较不熟悉的主题（Mallen等，2022；Sun等，2023）知之甚少。因此，对于知识密集型任务（Lewis等，2020），用户需要仔细验证他们收到的任何信息，以免受到误导。

本文关注知识密集型对话的三个度量标准：事实性、对话性和延迟。基于知识的聊天机器人首先需要具有事实性。我们假设可以访问一个可信的文本语料库来源；在这里，英文维基百科被认为是事实的。虽然LLM倾向于产生幻觉，但它们可以进行自然而引人入胜的对话，而不是对用户问题给出枯燥的答案。我们将能够提供相关、信息丰富、自然、非重复且时间准确的回答的能力统称为对话性。我们将延迟单独作为焦点的第三个度量，因为解决事实性的方法（如Gao等，2023；Jiang等，2023；Trivedi等，2023；Zhao等，2023）往往会导致较高的延迟，影响用户体验并阻碍采纳。

图1：所有WikiChat组件以及一个有关即将上映电影的样本对话，为简洁起见进行编辑。生成回应的步骤包括（1）生成从维基百科检索的查询（2）总结和过滤检索到的段落（3）从LLM生成回应（4）从LLM回应中提取声明（5）使用检索到的证据对LLM回应中的声明进行事实核查（6）起草回应，以及（7）改进响应

表1：WikiChat和基线在模拟对话中的评估结果。事实和时间准确性以百分比表示。其他指标是1到5之间整数的平均值（包括1和5），我们报告它们的均值和标准偏差。事实准确性来自人工评估，其他指标来自少样本的GPT-4。对于所有指标，数值越高越好。

在“全部”部分，通过p ≤ 0.05以统计学显著方式优于其可比较模型（例如，WikiChat G4 vs. GPT-4）的值被强调显示。

表2：每个聊天机器人的平均成本（美分）和延迟（秒）。LLaMA模型在本地GPU上运行，成本可以忽略不计。

表3：用户研究结果。用户评分差异在p ≤ 0.05的情况下具有统计学显著性（t = 2.18，p = 0.03）。

全文过长，如果有喜欢的欢迎私信作者索取全文。WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia （arXiv的文章应该不需要特色上网）

Max-小郭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
WikiChat: 通过在Wikipedia上进行少样本对齐（Few-shot Grounding）来阻止大型语言模型聊天机器人的幻觉（Hallucination）

这篇论文介绍了一种基于少样本学习（few-shot LLM）的聊天机器人，几乎不产生幻觉，具有高度的对话性和低延迟。WikiChat基于英文维基百科，这是最大的精选自由文本语料库。WikiChat利用语言模型（LLM）生成回应，仅保留与事实相关的信息，并将其与从语料库检索到的附加信息结合，形成既真实又引人入胜的回应。我们基于GPT-4对WikiChat进行了提炼，生成了一个7B参数的LLaMA模型，质量损失最小，显著提高了其延迟、成本和隐私性能，便于研究和部署。通过一种新颖的混合人机和LLM评估方法
复制链接

扫一扫