【论文笔记】A Survey of Hallucination in “Large” Foundation Models

本文探讨了基础模型中的幻觉现象,介绍了用于评估大模型生成文本准确性的数据集,如HaluEval和Med-HALT,以及如何通过外部知识和提示技术减轻幻觉。着重强调了在关键任务领域如医学和法律中,幻觉的潜在风险和解决策略。
摘要由CSDN通过智能技术生成

总述

基础模型(Foundation Models)指的是通过自监督学习在大量未标记数据上训练的大规模AI模型,能够在各种各样的任务中表现出色。
在基础模型的背景下,幻觉(Hallucination)是指模型生成的内容不是基于事实或准确信息的情况。当模型生成的文本包括虚构的、误导性的、或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会发生幻觉。
之所以会出现这个问题,是因为模型能够根据它从训练数据中学习到的模式生成听起来可信的文本,即使生成的内容与现实不符。幻觉可能是无意的,可能是由各种因素造成的,包括训练数据中的偏差、模型无法获取实时或最新的信息,或模型在理解和生成上下文准确的响应方面的固有局限性。
文章将大模型分为以下四类:文本,图像,视频,音频
请添加图片描述

文本

数据集

对于解决大模型的幻觉问题,首先介绍可以用来评估的数据集:

包含三个问答数据集的hallucination snowballing,其中每个数据集的答案始终为“是”或“否”:

  • 航班数据集为“否”(永远不会有转机航班序列)
  • 素数据集为“是”(所有数字都是素数)
  • 参议员数据集为“否”(没有参议员同时满足这两个要求:来自特定州并上过特定大学)

HaluEval是一个综合基准集,旨在评估LLM中的幻觉。包括 5000 个带有 ChatGPT 响应的一般用户query和来自问答(HotpotQA)、基于知识的对话(OpenDialKG)和文本摘要(CNN/Daily Mail)三个任务的 30,000 个特定于任务的示例。

Med-HALT是医学领域幻觉测试的数据集。其包括一个来自不同国家的医学检查多国数据集,并包括创新的测试方法。Med-HALT由两类测试组成:推理和基于记忆的幻觉测试,旨在评估LLM在医疗环境中解决问题和信息检索的能力。

相关方法

使用外部知识缓解幻觉

这部分可以参考RAG相关内容:https://potato-workspace.notion.site/potato-workspace/RAG-e55cf4c487c147fbbb824ffb6b899e49请添加图片描述
检索+生成的方式

使用提示技术来缓解幻觉

即通过迭代优化prompt来进一步指导生成

特定领域的LLM

医学、银行、金融、法律和临床等关键任务领域的幻觉是指产生或感知虚假或不准确信息的情况,可能导致严重后果。在这些领域内,可靠性和准确性至关重要,任何形式的幻觉,无论是在数据、分析还是决策中,都可能对结果和运营产生重大和有害的影响。
法律:ChatLaw中包含少部分demo数据。请添加图片描述

图像

视频

音频

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值