【论文解读】大模型事实性调查(上)

一、简要介绍

本调查探讨了大型语言模型(llm)中的事实性的关键问题。随着llm在不同领域的应用,其输出的可靠性和准确性变得至关重要。论文将“事实性问题”定义为llm产生与既定事实不一致的内容的概率。论文首先深入研究了这些不准确性的含义,并强调了LLM输出中的事实错误所带来的潜在后果和挑战。随后,论文分析了llm存储和处理事实的机制,寻找事实错误的主要原因。然后,论文的讨论过渡到评估LLM事实性的方法,强调关键指标、基准和研究。论文进一步探索了增强LLM事实性的策略,包括针对特定领域的方法。论文主要关注两种主要的LLM配置——独立的LLM和利用外部数据的检索-增强的LLM——论文详细介绍了它们所面临的独特挑战和潜在的增强功能。论文的调查为研究人员提供了一个结构化的指导,旨在加强llm的事实可靠性。

二、事实性问题(FACTUALITY ISSUE)

在本节中,论文将描述大型语言模型中的事实性问题及其影响。

2.1大型语言模型

在文献中没有对大型语言模型的精确定义。论文主要考虑具有突发能力的解码生成预训练语言模式,如ChatGPT 和LLaMA 。论文还包括了一些基于编码器-解码器架构模型的工作,如T5 。在这项调查中,论文不讨论只讨论仅基于编码器模型的工作,如BERT 和RoBERTa。具体来说,论文的调查包括以下llm:

通用领域大语言模型 General Domain LLMs:

GPT-2 , GPT-3 , ChatGPT , GPT-4 , GPT-Neo , OPT , LLaMA , LLaMA-2 , Incite , Claude , Falcon , MPT , Vicuna , FLAN-T5 , BLOOM , Baichuan & Baichuan2 , PaLM , Gopher , Megatron-LM , SAIL , Codex , Bard, GLM & ChatGLM, InternLM, StableBeluga, Claude, Alpaca , New Bing, Ziya-LLaMA, BLOOMZ , Chinese-LLaMA , Phoenix , and others.

特定领域大语言模型Domain-specify LLMs:

BloombergGPT , EcomGPT , BioGPT , LawGPT , Lawyer LLaMA, ChatLaw , BioMedLM, HuatuoGPT , ChatDoctor, MedicalGPT , Bentsao (Huatuo as its original name) , Zhongjing , LLM-AMT , DISC-MedLLM , Cohortgpt, Deid-gpt, Doctorglm , MedChatZH , K2 , HouYi , GrammarGPT , FoodGPT, ChatHome, and others.

2.2 Factuality

llm的事实性即是大型语言模型生成遵循事实信息的内容的能力,其中包括常识、世界知识和领域事实。事实信息可以基于可靠的来源,如字典、维基百科或来自不同领域的教科书。一系列的工作已经讨论了llm是否可以作为存储事实知识的知识库。

现有的工作集中在测量LLMs定性中的事实性,讨论了存储知识的机制和追踪知识问题的来源。llm的事实性问题相对最受关注。表1中显示了几个实例。例如,LLM可能缺乏特定领域的事实知识,如医学或法律领域。此外,LLM可能不知道在其上次更新后发生的事实。也有一些情况下,LLM尽管拥有相关的事实,但未能推断出正确的答案。在某些情况下,它甚至可能忘记或无法回忆起它以前所学到的事实。事实性问题与大型语言模型领域的几个热点话题密切相关,包括幻觉、过时信息和领域特异性(例如,健康、法律、金融)。在这些主题的核心,这些主题强调了同样的问题:llm可能生成与某些事实相矛盾的内容,无论这些内容是凭空捏造、过时的信息,还是缺乏特定领域的知识。

因此,论文认为这三个主题都在事实性问题的范围内。然而,需要注意的是,虽然这些主题是相关的,但它们每个都有一个独特的焦点。llm中的幻觉和事实问题都与生成内容的准确性和可靠性有关,它们涉及不同的方面。幻觉主要围绕着llm生成毫无根据的内容。从OpenAI的定义来看,幻觉可以被理解为该模型倾向于“产生与某些来源相关的荒谬或不真实的内容”。这与对事实性的关注不同,后者强调模型的学习、获取和利用事实性知识的能力。为了说明这一区别:如果LLM被提示创作“关于一只兔子和一只狼交朋友的童话故事”时,创作了一个关于“一只兔子和一只狗成为朋友”的故事,它就产生了幻觉。然而,这并不一定是一个事实性的错误。如果生成的内容包含准确的信息,但与提示符的细节不同,那么这是一个幻觉,而不是一个事实问题。例如,如果LLM的输出包含了比提示符指定的更多的细节或不同的元素,但实际上仍然是正确的,那么这将是一种幻觉。相反,如果LLM避免给出一个直接的答案,说“我不知道”,或者提供一个准确但省略了一些正确的细节,它解决的是事实,而不是幻觉。此外,值得注意的是,幻觉有时会产生的内容,虽然偏离了原始输入,但确实保持准确。关于事实问题和幻觉之间更结构化的比较,请参见表2。另一方面,过时的信息侧重于以前准确的信息已被最近的知识所取代的情况。最后,领域特异性强调生成需要特定的、专门的知识的内容。尽管存在这些差异,但所有这三个主题都有助于论文理解llm中更广泛的事实性问题。

设置(setting)。在这个调查中,论文主要关注的是两个具体的设置:1.标准的LLMs:直接使用LLMs来回答和聊天的;2.检索增强的llm:检索增强的生成。后者特别有趣,因为检索机制是增强llm的事实性的最普遍的方法之一。这不仅包括生成准确的响应,还包括从无数检索到的源中正确地选择相关的知识片段。

摘要任务(其目标是生成与源输入保持真实的摘要)已经有了关于事实性的研究,因此作者选择在论文的调查中不过多地关注这个领域。这一决定有几个原因。首先,摘要的源输入通常包含非事实的内容。其次,总结引入了一些独特的挑战,如确保连贯性、简洁性和相关性,这偏离了本调查的重点。同样值得注意的是,Pu等人发现,在不同的总结基准中,llm比人类产生更少的事实错误或幻觉。然而,论文仍然将讨论这一领域的一些工作,特别是那些与检索设置重叠的工作。

2.3 影响Impact

事实性问题显著地影响了llm的可用性。其中一些问题甚至导致了社会或经济层面的的损失,这引起了许多用户、开发人员和研究人员的注意。

事实问题也影响了法律领域,美国的一名律师因在法庭上提交幻觉判例法而面临制裁。一家法院要求律师在他们提交的材料中指出生成式人工智能产生的部分。此外,作为一项研究的一部分,一位律师要求ChatGPT生成一份有性骚扰史的法律学者名单。ChatGPT生成了一份包括一名法学教授的名单。ChatGPT称,2018年3月,《华盛顿邮报》的一篇文章报道该教授曾试图在课堂上触摸一名学生。然而,事实是,本文并不存在,所提到的课堂也不存在。此外,澳大利亚的一名市长发现了ChatGPT的虚假指控,称他个人被判受贿,承认了贿赂和腐败的指控,并被判入狱。作为回应,他计划对负责ChatGPT的公司提起法律行动,指控他们诽谤,传播有关他的不真实信息。这可能是首起涉及人工智能聊天机器人的此类诽谤案件。

最近的一项研究提供了对GPT-4在医疗能力考试和基准数据集上的表现的综合评估。该评估利用了GPT-4的纯文本版本,并调查了其在没有任何训练或微调的情况下处理医疗问题的能力。该评估使用美国医疗执照考试(USMLE)和MultiMedQA基准进行,将GPT-4的性能与GPT-3.5等早期模型以及专门根据医学知识进行微调的模型进行了比较。结果表明,GPT-4的性能明显优于它的前辈,在USMLE上获得的得分超过通过阈值20分,并且在没有专门的提示制作或针对特定领域的微调的情况下提供了最好的整体性能。

虽然大型语言模型在医疗数据集上显示出了希望,但在医疗保健领域引入自动化仍然需要非常谨慎的。现有的指标和基准测试通常是针对高度集中的问题而开发的。在评估LLM输出对现实世界的决策支持时提出了挑战,包括在现实世界环境中个性化推荐和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值