论文标题:
Unveiling the Siren's Song: Towards Reliable Fact-Conflicting Hallucination Detection
论文链接:
https://arxiv.org/pdf/2310.12086.pdf
项目链接:
https://github.com/zjunlp/FactCHD
在数字时代,大型语言模型(LLMs)如 ChatGPT/GPT-4 因其广泛的实际应用而受到瞩目。然而,它们在网络平台上产生的事实冲突幻觉问题限制了其应用范围。本文介绍了了一个名为 FACTCHD 的事实冲突幻觉检测基准,能够在 LLMs 的“查询-响应”环境中评估事实性。
FACTCHD 集成了多个领域的事实性知识,涵盖了广泛的事实性模式,如原始事实、多跳推理、比较和集合操作模式。其独特之处在于,它旨在将基于事实的证据链相互结合,当预测一个声明的事实性或非事实性时,提供有说服力的理由。然而,全程依靠人工注释来收集大量数据不仅耗时而且资源消耗巨大,其可扩展性亦有限。
因此,本文建议采用现有的知识图谱(KG)和文本知识作为数据来源,提出了一种基于知识事实的数据构建策略,并结合半监督注释的方法,以促进上述基准的创建和发展。与此同时,结合领域 KG 构建幻觉检测数据集的策略拓展性较高,进一步为未来在高风险领域如金融、医疗和法律等领域应用生成性 AI 提供了可能。
为了评估多种大型语言模型(如 Alpaca、ChatGPT 等)的效能,我们开展了一系列基准实验,利用我们的 FACTCHD 在不同设置下进行测试——零样本学习、上下文内学习、专门为检测特定专业知识进行调优,以及通过检索/工具进行知识增强。尽管调优和知识增强对事实冲突幻觉的评估产生了积极影响,但开源的大型语言模型和 ChatGPT 在精准和稳健地检测事实不准确性方面仍面临挑战。
因此,本文引入了一个“三角测量”框架进行幻觉辨别,其使用交叉参考生成器和搜索工具来裁决有问题的事实回答。初步实验验证了不同 LLM 在识别事实冲突幻觉方面的不同表现,并确认了本文提出方法的优越性。
FactCHD基准的构建
基于上述定义,我们构建了涉及多个领域的 FactCHD 基准,其中包含了一系列全面的训练样本,并额外添加了 6,960 个经过精心筛选的样本,用于评估 LLM 生成的事实冲突幻觉。我们的数据集确保了 factual 或 non-factual 类别之间的平衡,为评估提供了一个坚实的平台。值得注意的是,FactCHD 具有以下三个显著特点:
(1)如图 1 和 2 所示它包含了多样化推理模式,包括多跳、比较和集合操作,并涉及健康,医疗,科学,气候等多个领域;
(2)FactCHD 遵循现实场景,提供 “Query-Response” 对和相关证据来验证提供的信息;
(3)该基准测试经过精心设计,在初始数据构建阶段利用知识图谱(KGs),经过细致的人工验证以确保质量。此外,该数据集本身允许通过基于知识图谱的更新进行扩展,从而在保持时代性和可扩展性方面具有独特优势。
接下来,本文将介绍