【论文笔记】A Survey of Hallucination in “Large” Foundation Models

最新推荐文章于 2024-08-25 13:53:53 发布

夏离

最新推荐文章于 2024-08-25 13:53:53 发布

阅读量122

点赞数 1

分类专栏：笔记文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_35166730/article/details/133648588

版权

笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

本文探讨了基础模型中的幻觉现象，介绍了用于评估大模型生成文本准确性的数据集，如HaluEval和Med-HALT，以及如何通过外部知识和提示技术减轻幻觉。着重强调了在关键任务领域如医学和法律中，幻觉的潜在风险和解决策略。

摘要由CSDN通过智能技术生成

总述

基础模型（Foundation Models）指的是通过自监督学习在大量未标记数据上训练的大规模AI模型，能够在各种各样的任务中表现出色。
在基础模型的背景下,幻觉（Hallucination）是指模型生成的内容不是基于事实或准确信息的情况。当模型生成的文本包括虚构的、误导性的、或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会发生幻觉。
之所以会出现这个问题,是因为模型能够根据它从训练数据中学习到的模式生成听起来可信的文本,即使生成的内容与现实不符。幻觉可能是无意的,可能是由各种因素造成的,包括训练数据中的偏差、模型无法获取实时或最新的信息,或模型在理解和生成上下文准确的响应方面的固有局限性。
文章将大模型分为以下四类：文本，图像，视频，音频
请添加图片描述

文本

数据集

对于解决大模型的幻觉问题，首先介绍可以用来评估的数据集：

包含三个问答数据集的hallucination snowballing，其中每个数据集的答案始终为“是”或“否”：

航班数据集为“否”（永远不会有转机航班序列）
素数据集为“是”（所有数字都是素数）
参议员数据集为“否”（没有参议员同时满足这两个要求：来自特定州并上过特定大学）

HaluEval是一个综合基准集，旨在评估LLM中的幻觉。包括 5000 个带有 ChatGPT 响应的一般用户query和来自问答（HotpotQA）、基于知识的对话（OpenDialKG）和文本摘要（CNN/Daily Mail）三个任务的 30,000 个特定于任务的示例。

Med-HALT是医学领域幻觉测试的数据集。其包括一个来自不同国家的医学检查多国数据集，并包括创新的测试方法。Med-HALT由两类测试组成：推理和基于记忆的幻觉测试，旨在评估LLM在医疗环境中解决问题和信息检索的能力。

特定领域的LLM

医学、银行、金融、法律和临床等关键任务领域的幻觉是指产生或感知虚假或不准确信息的情况，可能导致严重后果。在这些领域内，可靠性和准确性至关重要，任何形式的幻觉，无论是在数据、分析还是决策中，都可能对结果和运营产生重大和有害的影响。
法律：ChatLaw中包含少部分demo数据。请添加图片描述

图像

视频

音频

夏离

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】A Survey of Hallucination in “Large” Foundation Models

基础模型（Foundation Models）指的是通过自监督学习在大量未标记数据上训练的大规模AI模型，能够在各种各样的任务中表现出色。在基础模型的背景下,幻觉（Hallucination）是指模型生成的内容不是基于事实或准确信息的情况。当模型生成的文本包括虚构的、误导性的、或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会发生幻觉。之所以会出现这个问题,是因为模型能够根据它从训练数据中学习到的模式生成听起来可信的文本,即使生成的内容与现实不符。
复制链接

扫一扫