人工智能幻觉的成因分析和解决措施的挑战

注:机翻,未校对。

一些关于 AI 幻觉的文章合集。


Hallucinations: Why AI Makes Stuff Up, and What’s Being Done About It

幻觉:为什么人工智能会编造东西,以及正在采取什么措施

There’s an important distinction between using AI to generate content and to answer questions.
使用 AI 生成内容和回答问题之间有一个重要的区别。

Lisa Lacy

April 1, 2024 5:00 a.m. PT

8 min read

wildpixel/iStock via Getty Images

Less than two years ago, cognitive and computer scientist Douglas Hofstadter demonstrated how easy it was to make AI hallucinate when he asked a nonsensical question and OpenAI’s GPT-3 replied, “The Golden Gate Bridge was transported for the second time across Egypt in October of 2016.”
不到两年前,认知和计算机科学家道格拉斯・霍夫施塔特(Douglas Hofstadter)提出了一个荒谬的问题,证明了让人工智能产生幻觉是多么容易,OpenAI 的 GPT-3 回答说:“金门大桥于 2016 年 10 月第二次穿越埃及。

Now, however, GPT-3.5 — which powers the free version of ChatGPT — tells you, “There is no record or historical event indicating that the Golden Gate Bridge, which is located in San Francisco, California, USA, was ever transported across Egypt.”
然而,现在,为 ChatGPT 免费版本提供动力的 GPT-3.5 告诉你,“没有任何记录或历史事件表明,位于美国加利福尼亚州旧金山的金门大桥曾经被运过埃及。

It’s a good example of how quickly these AI models evolve. But for all the improvements on this front, you still need to be on guard.
这是一个很好的例子,说明这些人工智能模型的发展速度有多快。但是,尽管在这方面取得了所有改进,但您仍然需要保持警惕。

AI chatbots continue to hallucinate and present material that isn’t real, even if the errors are less glaringly obvious. And the chatbots confidently deliver this information as fact, which has already generated plenty of challenges for tech companies and headlines for media outlets.
人工智能聊天机器人继续产生幻觉并呈现不真实的材料,即使错误不那么明显。聊天机器人自信地将这些信息作为事实提供,这已经给科技公司带来了很多挑战,也给媒体带来了头条新闻。

Taking a more nuanced view, hallucinations are actually both a feature and a bug — and there’s an important distinction between using an AI model as a content generator and tapping into it to answer questions.
从更细致的角度来看,幻觉实际上既是一个功能,也是一个错误 —— 使用人工智能模型作为内容生成器和利用它来回答问题之间有一个重要的区别。

Since late 2022, we’ve seen the introduction of generative AI tools like ChatGPT, Copilot and Gemini from tech giants and startups alike. As users experiment with these tools to write code, essays and poetry, perfect their resumes, create meal and workout plans and generate never-before-seen images and videos, we continue to see mistakes, like inaccuracies in historical image generation. It’s a good reminder generative AI is still very much a work in progress, even as companies like Google and Adobe showcase tools that can generate games and music to demonstrate where the technology is headed.
自 2022 年底以来,我们看到科技巨头和初创公司推出了 ChatGPT、Copilot 和 Gemini 等生成式 AI 工具。当用户尝试使用这些工具编写代码、论文和诗歌、完善简历、创建膳食和锻炼计划以及生成前所未见的图像和视频时,我们继续看到错误,例如历史图像生成的不准确。这是一个很好的提醒,生成式人工智能仍然是一项正在进行的工作,尽管像谷歌和 Adobe 这样的公司展示了可以生成游戏和音乐的工具,以展示该技术的发展方向。

If you’re trying to wrap your head around what hallucinations are and why they happen, this explainer is for you. Here’s what you need to know.
如果您想了解幻觉是什么以及它们为什么会发生,那么这个解释器适合您。以下是您需要了解的内容。

What is an AI hallucination? 什么是人工智能幻觉?

A generative AI model “hallucinates” when it delivers false or misleading information.
生成式 AI 模型在提供虚假或误导性信息时会 “产生幻觉”。

A frequently cited example comes from February 2023 when Google’s Bard chatbot (now called Gemini) was asked about the discoveries made by NASA’s James Webb Space Telescope and it incorrectly stated the telescope took the first pictures of an exoplanet outside our solar system. But there are plenty of others.
一个经常被引用的例子来自 2023 年 2 月,当时谷歌的 Bard 聊天机器人(现在称为 Gemini)被问及美国宇航局詹姆斯韦伯太空望远镜的发现,它错误地表示该望远镜拍摄了太阳系外系外行星的第一张照片。但还有很多其他的。

ChatGPT falsely stated an Australian politician was one of the guilty parties in a bribery case when he was in fact the whistleblower. And during a two-hour conversation, Bing’s chatbot eventually professed its love for New York Times tech columnist Kevin Roose.
ChatGPT 错误地表示一名澳大利亚政客是贿赂案的罪魁祸首之一,而他实际上是举报人。在两个小时的对话中,Bing 的聊天机器人最终表达了对《纽约时报》科技专栏作家凯文・罗斯(Kevin Roose)的热爱。

According to Stefano Soatto, vice president and distinguished scientist at Amazon Web Services, a hallucination in AI is “synthetically generated data,” or “fake data that is statistically indistinguishable from actual factually correct data.” (Amazon Web Services works with clients like LexisNexis and Ricoh to build generative AI applications with Anthropic’s Claude 3 Haiku model.)
根据亚马逊网络服务副总裁兼杰出科学家斯特凡诺・索阿托(Stefano Soatto)的说法,人工智能中的幻觉是 “合成生成的数据”,或者是 “在统计上与实际事实正确的数据无法区分的虚假数据”。(亚马逊网络服务与 LexisNexis 和 Ricoh 等客户合作,使用 Anthropic 的 Claude 3 Haiku 模型构建生成式 AI 应用程序。

Let’s unpack that a little. Take, for example, an AI model that can generate text and was trained on Wikipedia. Its purpose is to generate text that looks and sounds like the posts we already see on Wikipedia.
让我们稍微解开一下。举个例子,一个可以生成文本的 AI 模型,并在维基百科上进行了训练。其目的是生成看起来和听起来像我们已经在维基百科上看到的帖子的文本。

In other words, the model is trained to generate data that is “statistically indistinguishable” from the training data, or that has the same type of generic characteristics. There’s no requirement for it to be “true,” Soatto said.
换言之,模型经过训练后,会生成与训练数据 “在统计上无法区分” 的数据,或者具有相同类型的通用特征的数据。没有要求它是 “真实的”,Soatto 说。

How and why does AI hallucinate? 人工智能如何以及为什么会产生幻觉?

It all goes back to how the models were trained.
这一切都可以追溯到模型的训练方式。

The large language models that underpin generative AI tools are trained on massive amounts of data, like articles, books, code and social media posts. They’re very good at generating text that’s similar to whatever they saw during training.
支撑生成式 AI 工具的大型语言模型是在大量数据上训练的,例如文章、书籍、代码和社交媒体帖子。他们非常擅长生成与他们在训练期间看到的任何内容相似的文本。

Let’s say the model has never seen a sentence with the word “crimson” in it. It can nevertheless infer this word is used in similar contexts to the word “red.” And so it might eventually say something is crimson in color rather than red.
假设模型从未见过包含 “crimson” 一词的句子。尽管如此,它仍然可以推断出这个词与 “红色” 一词在相似的上下文中使用。因此,它最终可能会说某些东西是深红色的,而不是红色的。

“It generalizes or makes an inference based on what it knows about language, what it knows about the occurrence of words in different contexts,” said Swabha Swayamdipta, assistant professor of computer science at the USC Viterbi School of Engineering and leader of the Data*,* Interpretability*,* Languageand Learning (DILL) lab. “This is why these language models produce facts which kind of seem plausible but are not quite true because they’re not trained to just produce exactly what they have seen before.”
“它根据它对语言的了解,它对不同上下文中单词出现的了解来概括或做出推断,” 南加州大学维特比工程学院计算机科学助理教授、数据、可解释性、语言和学习(DILL)实验室的负责人 Swabha Swayamdipta 说。“这就是为什么这些语言模型产生的事实看起来似乎合理,但并不完全正确,因为它们没有经过训练来产生他们以前看到的东西。

Hallucinations can also result from improper training and/or biased or insufficient data, which leave the model unprepared to answer certain questions.
幻觉也可能是由不正确的训练和 / 或有偏见或不足的数据引起的,这使得模型没有准备好回答某些问题。

“The model doesn’t have contextual information,” said Tarun Chopra, vice president of product management at IBM Data & AI. “It’s just saying, ‘Based on this word, I think that the right probability is this next word.’ That’s what it is. Just math in the basic sense.”
“该模型没有上下文信息,”IBM 数据与 AI 产品管理副总裁 Tarun Chopra 说。“它只是在说,’ 根据这个词,我认为正确的概率是下一个词。就是这样。只是基本意义上的数学。

How often does AI hallucinate? 人工智能多久产生一次幻觉?

Estimates from gen AI startup Vectara show chatbots hallucinate anywhere from 3% to 27% of the time. It has a Hallucination Leaderboard on developer platform Github, which keeps a running tab on how often popular chatbots hallucinate when summarizing documents.
据人工智能初创公司 Vectara 估计,聊天机器人产生幻觉的几率从 3% 到 27% 不等。它在开发者平台 Github 上有一个幻觉排行榜,该排行榜密切关注流行的聊天机器人在总结文档时产生幻觉的频率。

Tech companies are well aware of these limitations.
科技公司很清楚这些局限性。

For example, GPT-3.5 warns, “ChatGPT can make mistakes. Consider checking important information,” while Google includes a disclaimer that says, “Gemini may display inaccurate info, including about people, so double-check responses.”
例如,GPT-3.5 警告说,“ChatGPT 可能会犯错误。考虑检查重要信息 “,而谷歌则包含一项免责声明,其中写道:” 双子座可能会显示不准确的信息,包括关于人的信息,因此请仔细检查回复。

An OpenAI spokesperson said the company is “continuing to make improvements to limit the issue as we make model updates.”
OpenAI 的一位发言人表示,该公司 “正在继续进行改进,以限制我们在进行模型更新时的问题。

According to OpenAI’s figures, GPT-4, which came out in March 2023, is 40% more likely to produce factual responses than its predecessor, GPT-3.5.
根据 OpenAI 的数据,2023 年 3 月问世的 GPT-4 比其前身 GPT-3.5 产生事实回应的可能性高 40%。

In a statement, Google said, “As we’ve said from the beginning, hallucinations are a known challenge with all LLMs — there are instances where the AI just gets things wrong. This is something that we’re constantly working on improving.”
谷歌在一份声明中表示,“正如我们从一开始就说过的那样,幻觉是所有 LLMs 的一个已知挑战 - 在某些情况下,AI 会把事情弄错。这是我们一直在努力改进的地方。

When asked about hallucinations in its products, a Microsoft spokesperson said it has “made progress on grounding, fine-tuning and steering techniques to help address when an AI model or AI chatbot fabricates a response.”
当被问及其产品中的幻觉时,Microsoft 发言人表示,它 “在接地、微调和转向技术方面取得了进展,以帮助解决人工智能模型或人工智能聊天机器人何时做出回应的问题。

Can you prevent AI hallucinations? 你能防止人工智能幻觉吗?

We can’t stop hallucinations, but we can manage them.
我们无法阻止幻觉,但我们可以控制它们。

One way is to ensure the training data is of a high quality and adequate breadth and the model is tested at various checkpoints.
一种方法是确保训练数据具有高质量和足够的广度,并在各个检查点测试模型。

Swayamdipta suggested a set of journalism-like standards in which outputs generated by language models are verified by third-party sources.
Swayamdipta 提出了一套类似新闻的标准,其中语言模型生成的输出由第三方来源进行验证。

Another solution is to embed the model within a larger system — more software — that checks consistency and factuality and traces attribution.
另一种解决方案是将模型嵌入到一个更大的系统中(更多的软件),该系统检查一致性和事实性,并追踪归因。

“Hallucination as a property of an AI model is unavoidable, but as a property of the system that uses the model, it is not only unavoidable, it is very avoidable and manageable,” Soatto said.
“幻觉作为人工智能模型的一个属性是不可避免的,但作为使用该模型的系统的一个属性,它不仅是不可避免的,而且是非常可避免和可控的,”Soatto 说。

This larger system could also help businesses make sure their chatbots are aligned with other constraints, policies or regulations — and avoid the lawsuit Air Canada found itself in after its chatbot hallucinated details about the airline’s bereavement policy that were inaccurate.
这个更大的系统还可以帮助企业确保他们的聊天机器人符合其他限制、政策或法规,并避免加拿大航空公司在其聊天机器人幻觉有关航空公司丧亲政策的细节不准确后陷入的诉讼。

“If users hope to download a pretrained model from the web and just run it and hope that they get factual answers to questions, that is not a wise use of the model because that model is not designed and trained to do that,” Soatto added. “But if they use services that place the model inside a bigger system where they can specify or customize their constraints … that system overall should not hallucinate.”
“如果用户希望从网络上下载一个预训练的模型,然后运行它,并希望他们得到问题的事实答案,那么这不是对模型的明智使用,因为该模型的设计和训练不是为了做到这一点,”Soatto 补充道。“但是,如果他们使用将模型放置在一个更大的系统中的服务,他们可以在其中指定或自定义他们的约束… 这个系统总体上不应该产生幻觉。

A quick check for users is to ask the same question in a slightly different way to see how the model’s response compares.
对用户来说,快速检查是以略有不同的方式提出相同的问题,以查看模型的响应如何比较。

“If someone is a habitual liar, every time they generate a response, it will be a different response,” said Sahil Agarwal, CEO of AI security platform Enkrypt AI. “If a slight change in the prompt vastly deviates the response, then the model actually didn’t understand what we’re asking it in the first place.”
“如果有人是一个习惯性的说谎者,每次他们产生反应时,都会有不同的反应,” 人工智能安全平台 Enkrypt AI 的首席执行官 Sahil Agarwal 说。“如果提示中的微小变化极大地偏离了响应,那么模型实际上一开始就没有理解我们要问它什么。

Are AI hallucinations always bad? 人工智能幻觉总是坏事吗?

The beauty of generative AI is its potential for new content, so sometimes hallucinations can actually be welcome.
生成式人工智能的美妙之处在于它对新内容的潜力,因此有时幻觉实际上是受欢迎的。

“We want these models to come up with new scenarios, or maybe new ideas for stories or … to write a sonnet in the style of Donald Trump,” Swayamdipta said. “We don’t want it to produce exactly what it has seen before.”
“我们希望这些模型能提出新的场景,或者可能是故事的新想法,或者… 以唐纳德・特朗普的风格写一首十四行诗,“斯瓦亚姆迪普塔说。“我们不希望它产生完全像以前见过的那样。

And so there’s an important distinction between using an AI model as a content generator and using it to factually answer questions.
因此,使用人工智能模型作为内容生成器和使用它来实际回答问题之间存在着重要的区别。

“It’s really not fair to ask generative models to not hallucinate because that’s what we train them for,” Soatto added. “That’s their job.”
“要求生成模型不要产生幻觉真的很不公平,因为这就是我们训练它们的目的,”Soatto 补充道。“那是他们的工作。”

How do you know if an AI is hallucinating? 你怎么知道人工智能是否在产生幻觉?

If you’re using generative AI to answer questions, it’s wise to do some external fact-checking to verify responses.
如果您正在使用生成式 AI 来回答问题,那么进行一些外部事实检查以验证答案是明智的。

It might also be a good idea to lean in to generative AI’s creative strengths but use other tools when seeking factual information.
利用生成式人工智能的创造性优势,但在寻求事实信息时使用其他工具也可能是一个好主意。

“I might go to a language model if I wanted to rephrase something or help with some kind of writing tasks as opposed to a task that involves correct information generation,” Swayamdipta said.
“如果我想改写一些东西或帮助完成某种写作任务,而不是涉及正确信息生成的任务,我可能会使用语言模型,”Swayamdipta 说。

Another option is retrieval augmented generation (RAG). With this feature, the overall system fact-checks sources and delivers responses with a link to said source, which the user can double-check.
另一种选择是检索增强生成 (RAG)。借助此功能,整个系统会对来源进行事实检查,并通过指向所述来源的链接提供响应,用户可以仔细检查该链接。

OpenAI’s GPT-4 has the ability to browse the Internet if it doesn’t know the answer to a query — and it will cite where the information came from.
OpenAI 的 GPT-4 如果不知道查询的答案,它有能力浏览互联网 —— 它会引用信息的来源。

Microsoft also can search the web for relevant content to inform its responses. And Copilot includes links to websites where users can verify responses.
Microsoft 还可以在网络上搜索相关内容,以告知其响应。Copilot 包含指向网站的链接,用户可以在其中验证响应。

Will we ever get to a point where AI doesn’t hallucinate? 我们是否会达到人工智能不会产生幻觉的地步?

Hallucinations are a result of training data limitations and lack of world knowledge, but researchers are working to mitigate them with better training data, improved algorithms and the addition of fact-checking mechanisms.
幻觉是训练数据限制和缺乏世界知识的结果,但研究人员正在努力通过更好的训练数据、改进的算法和增加事实核查机制来缓解幻觉。

In the short term, the technology companies behind generative AI tools have added disclaimers about hallucinations.
在短期内,生成式人工智能工具背后的科技公司已经增加了关于幻觉的免责声明。

Human oversight is another aspect to potentially better manage hallucinations within the scope of factual information. But it also may come down to government policies to ensure guardrails are in place to guide future development.
人为监督是另一个方面,可以更好地管理事实信息范围内的幻觉。但这也可能归结为政府的政策,以确保护栏到位,以指导未来的发展。

The EU in March approved the Artificial Intelligence Act, which seeks to foster the development of trustworthy AI with clear requirements and obligations for specific uses.
欧盟于 3 月批准了《人工智能法案》(Artificial Intelligence Act),该法案旨在促进可信赖的人工智能的发展,并对特定用途提出明确的要求和义务。

According to Chopra, the EU AI Act “provides a much tidier framework for ensuring transparency, accountability and human oversight” in developing and deploying AI. “Not every country is going to do the same thing, but the basic principles … are super, super critical,” he added.
根据 Chopra 的说法,《欧盟人工智能法案》“为确保透明度、问责制和人类监督提供了一个更整洁的框架”。“不是每个国家都会做同样的事情,但基本原则… 超级,超级关键,“他补充说。

Until then, we’ll have to use a multi-pronged strategy to take advantage of what these models offer while limiting any risks.
在此之前,我们将不得不使用多管齐下的策略来利用这些模型提供的功能,同时限制任何风险。

“I think it helps to not expect of machines what even humans cannot do, especially when it comes to interpreting the intent of humans,” Soatto said. “It’s important for humans to understand [AI models], exploit them for what they can do, mitigate the risks for what they’re not designed to do and design systems that manage them.”
“我认为不要期望机器做甚至人类都做不到的事情是有帮助的,尤其是在解释人类的意图时,”Soatto 说。“对于人类来说,理解 [人工智能模型],利用它们来做他们能做的事,减轻他们不是设计用来做的事情的风险,并设计管理它们的系统,这一点很重要。”


via:

When AI Gets It Wrong: Addressing AI Hallucinations and Bias 当 AI 出错时:解决 AI 幻觉和偏见

At a Glance 概览

Generative AI has the potential to transform higher education—but it’s not without its pitfalls. These technology tools can generate content that’s skewed or misleading (Generative AI Working Group, n.d.). They’ve been shown to produce images and text that perpetuate biases related to gender, race (Nicoletti & Bass, 2023), political affiliation (Heikkilä, 2023), and more. As generative AI becomes further ingrained into higher education, it’s important to be intentional about how we navigate its complexities.
生成式人工智能具有改变高等教育的潜力,但它并非没有陷阱。这些技术工具可能会生成歪曲或误导性的内容(生成式人工智能工作组,日期不详)。它们已被证明可以产生与性别、种族(Nicoletti & Bass,2023 年)、政治派别(Heikkilä,2023 年)等相关的偏见,从而延续偏见。随着生成式人工智能在高等教育中越来越根深蒂固,重要的是要有意识地思考如何应对其复杂性。

Biased Content 有偏见的内容

Problems with bias in AI systems predate generative AI tools. For example, in the Gender Shades project, Buolamwini (2017) tested AI-based commercial gender classification systems and found significant disparities in accuracy across different genders and skin types. These systems performed better on male and lighter-skinned faces than others. The largest disparity was found in darker-skinned females, where error rates were notably high.
人工智能系统中的偏见问题早于生成式人工智能工具。例如,在 Gender Shades 项目中,Buolamwini (2017) 测试了基于人工智能的商业性别分类系统,发现不同性别和皮肤类型之间的准确性存在显着差异。这些系统在男性和浅肤色的脸上比其他系统表现得更好。最大的差异是在肤色较深的女性中发现的,其中错误率明显很高。

Generative AI tools present similar problems. For example, a 2023 analysis of more than 5,000 images created with the generative AI tool Stable Diffusion found that it simultaneously amplifies both gender and racial stereotypes (Nicoletti & Bass, 2023). These generative AI biases can have real-world consequences. For instance, adding biased generative AI to “virtual sketch artist” software used by police departments could “put already over-targeted populations at an even increased risk of harm ranging from physical injury to unlawful imprisonment” (Mok, 2023). There’s also a risk that the veneer of objectivity that comes with technology tools could make people less willing to acknowledge the problem of biased outputs (Nicoletti & Bass, 2023). These issues aren’t unique to image generators, either; researchers and users have found that text generators like ChatGPT may also produce harmful and biased content (Germain, 2023).
生成式人工智能工具也存在类似的问题。例如,2023 年对使用生成式 AI 工具 Stable Diffusion 创建的 5,000 多张图像的分析发现,它同时放大了性别和种族刻板印象(Nicoletti & Bass,2023 年)。这些生成式 AI 偏见可能会产生现实世界的后果。例如,在警察部门使用的 “虚拟素描艺术家” 软件中添加有偏见的生成式人工智能可能会 “使已经过度针对的人群面临更大的伤害风险,从身体伤害到非法监禁”(Mok,2023)。还有一种风险是,技术工具带来的客观性外表可能会使人们不太愿意承认有偏见的输出问题(Nicoletti & Bass,2023)。这些问题也不是图像生成器所独有的;研究人员和用户发现,像 ChatGPT 这样的文本生成器也可能产生有害和有偏见的内容(Germain,2023 年)。

Inaccurate Content 内容不准确

Generative AI tools also carry the potential for inaccurate and misleading outputs. Content generated by AI tools like ChatGPT, Bing, and Bard have been found to provide users with fabricated data that appears authentic. These inaccuracies are so common that they’ve earned their own moniker; we refer to them as “hallucinations” (Generative AI Working Group, n.d.).
生成式 AI 工具还可能产生不准确和误导性的输出。已发现由 ChatGPT、Bing 和 Bard 等 AI 工具生成的内容为用户提供了看似真实的捏造数据。这些不准确之处非常普遍,以至于它们赢得了自己的绰号;我们将它们称为 “幻觉”(生成式人工智能工作组,日期不详)。

For an example of how AI hallucinations can play out in the real world, consider the legal case of Mata v. Avianca. In this case, a New York attorney representing a client’s injury claim relied on ChatGPT to conduct his legal research. The federal judge overseeing the suit noted that the opinion contained internal citations and quotes that were nonexistent. Not only did the chatbot make them up, it even stipulated they were available in major legal databases (Weiser, 2023).
关于人工智能幻觉如何在现实世界中发挥作用的一个例子,请考虑 Mata 诉 Avianca 的法律案件。在本案中,代表客户受伤索赔的纽约律师依靠 ChatGPT 进行法律研究。负责监督该诉讼的联邦法官指出,该意见包含不存在的内部引文和引文。聊天机器人不仅编造了它们,甚至规定它们可以在主要的法律数据库中使用(Weiser,2023 年)。

As we integrate AI into teaching and learning, it’s important to be wary of its limitations.
当我们将人工智能融入教学和学习时,重要的是要警惕其局限性。

Why is AI Flawed? 为什么人工智能有缺陷?

Generative AI systems can produce inaccurate and biased content for several reasons:
生成式 AI 系统可能会产生不准确和有偏见的内容,原因如下:

  1. **Training Data Sources:**Generative AI models are trained on vast amounts of internet data. This data, while rich in information, contains both accurate and inaccurate content, as well as societal and cultural biases. Since these models mimic patterns in their training data without discerning truth, they can reproduce any falsehoods or biases present in that data (Weise & Metz, 2023).
    训练数据源:生成式 AI 模型是在大量互联网数据上训练的。这些数据虽然信息丰富,但包含准确和不准确的内容,以及社会和文化偏见。由于这些模型模仿其训练数据中的模式而没有辨别真实性,因此它们可以复制该数据中存在的任何错误或偏见(Weise & Metz,2023)。
  2. **Limitations of Generative Models:**Generative AI models function like advanced autocomplete tools: They’re designed to predict the next word or sequence based on observed patterns. Their goal is to generate plausible content, not to verify its truth. That means any accuracy in their outputs is often coincidental. As a result, they might produce content that sounds plausible but is inaccurate (O’Brien, 2023).
    生成式 AI 模型的局限性:生成式 AI 模型的功能类似于高级自动完成工具:它们旨在根据观察到的模式预测下一个单词或序列。他们的目标是生成合理的内容,而不是验证其真实性。这意味着他们输出的任何准确性通常都是巧合。因此,他们可能会制作出听起来合理但不准确的内容(O’Brien,2023 年)。
  3. **Inherent Challenges in AI Design:**The technology behind generative AI tools isn’t designed to differentiate between what’s true and what’s not true. Even if generative AI models were trained solely on accurate data, their generative nature would mean they could still produce new, potentially inaccurate content by combining patterns in unexpected ways (Weise & Metz, 2023).
    AI 设计的固有挑战:生成式 AI 工具背后的技术并不是为了区分什么是真的,什么是假的。即使生成式 AI 模型仅根据准确数据进行训练,它们的生成性质也意味着它们仍然可以通过以意想不到的方式组合模式来产生新的、可能不准确的内容(Weise & Metz,2023)。

In short, the “hallucinations” and biases in generative AI outputs result from the nature of their training data, the tools’ design focus on pattern-based content generation, and the inherent limitations of AI technology. Acknowledging and addressing these challenges will be essential as generative AI systems become more integrated into decision-making processes across various sectors.
简而言之,生成式人工智能输出中的 “幻觉” 和偏见源于其训练数据的性质、工具的设计重点在于基于模式的内容生成,以及人工智能技术的固有局限性。随着生成式人工智能系统越来越多地融入各行各业的决策过程,承认并应对这些挑战至关重要。

Navigate AI’s Pitfalls 避开 AI 的陷阱

Consider these strategies to help mitigate generative AI tools’ issues with hallucination and bias.
考虑这些策略,以帮助缓解生成式 AI 工具的幻觉和偏见问题。

Critically Evaluate AI Outputs 批判性地评估 AI 输出

Unlike humans, AI systems do not have the ability to think or form beliefs. They operate algorithmically based on their training data, without any inherent capacity for reasoning or reflection. AI-generated content can sometimes stray off-topic or might include irrelevant information because deep learning models can produce outcomes that are seemingly coherent but lacking depth (Cano et al., 2023) Given this context, the human touch remains irreplaceable. Users must approach AI outputs with a critical eye and evaluate them with human judgement (Silberg & Manyika, 2019).
与人类不同,人工智能系统不具备思考或形成信念的能力。它们根据训练数据进行算法操作,没有任何固有的推理或反思能力。人工智能生成的内容有时可能会偏离主题或可能包含不相关的信息,因为深度学习模型可以产生看似连贯但缺乏深度的结果(Cano et al., 2023) 鉴于这种背景,人情味仍然是不可替代的。用户必须以批判的眼光对待人工智能的输出,并用人类的判断来评估它们(Silberg&Manyika,2019)。

Diversify Your Sources 使您的来源多样化

The imperfections in AI arise from a variety of factors. For one, different AI systems interpret and respond to human prompts in unique ways, leading to diverse outcomes (Heikkilä, 2023) that may differ not only in content but also in quality. As such, it’s important to always cross check the accuracy of AI-generated content. The most important strategy is to cross-reference AI output with reliable sources such as expert publications that you access through the MIT Libraries. You may also wish to compare outputs from multiple AI platforms to get a better sense of the quality of results that each can produce.
人工智能的不完善是由多种因素引起的。首先,不同的人工智能系统以独特的方式解释和响应人类提示,导致不同的结果(Heikkilä,2023),这些结果不仅在内容上而且在质量上可能有所不同。因此,始终交叉检查 AI 生成内容的准确性非常重要。最重要的策略是将 AI 输出与可靠的来源(例如您通过麻省理工学院图书馆访问的专家出版物)交叉引用。您可能还希望比较多个 AI 平台的输出,以更好地了解每个平台可以产生的结果质量。

Conclusion 结论

The world of higher education is rapidly embracing AI, and these new tools promise both opportunities and challenges. Generative AI offers great potential to improve how we teach, research, and operate. However, it’s essential to remember that AI outputs can produce falsehoods and can amplify harmful biases. In short, while AI is a powerful tool, the human touch remains crucial. By working together, we can make the most of what AI offers while mitigating its known limitations.
高等教育界正在迅速拥抱人工智能,这些新工具既带来了机遇,也带来了挑战。生成式人工智能在改善我们的教学、研究和运营方式方面具有巨大潜力。然而,必须记住,人工智能的输出会产生虚假信息,并可能放大有害的偏见。简而言之,虽然人工智能是一个强大的工具,但人性化仍然至关重要。通过共同努力,我们可以充分利用人工智能提供的功能,同时减轻其已知的局限性。

References

Buolamwini, J. (2017). Gender shades: Intersectional phenotypic and demographic evaluation of face datasets and gender classifiers. DSpace@MIT. https://dspace.mit.edu/handle/1721.1/114068

Cano, Y. M., Venuti, F., & Martinez, R. H. (2023). ChatGPT and AI text generators: Should academia adapt or resist? Harvard Business Publishing. https://hbsp.harvard.edu/inspiring-minds/chatgpt-and-ai-text-generators-should-academia-adapt-or-resist

Generative AI Working Group. (n.d.) How can we counteract generative AI’s hallucinations? Digital, Data, and Design Institute at Harvard. https://d3.harvard.edu/how-can-we-counteract-generative-ais-hallucinations

Germain, T. (2023, April 13). ‘They’re all so dirty and smelly:’ study unlocks ChatGPT’s inner racist. Gizmodo. https://gizmodo.com/chatgpt-ai-openai-study-frees-chat-gpt-inner-racist-1850333646

Heikkilä, M. (2023, August 8). AI language models are rife with different political biases. MIT Technology Review. https://www.technologyreview.com/2023/08/07/1077324/ai-language-models-are-rife-with-political-biases

McCormack, M. (2023, April 17). Educause quickpoll results: Adopting and adapting to generative AI in higher ed tech. Educause Review. https://er.educause.edu/articles/2023/4/educause-quickpoll-results-adopting-and-adapting-to-generative-ai-in-higher-ed-tech

Nicoletti, L., & Bass, D. (2023, June 14). Humans are biased. Generative AI is even worse. Bloomberg Technology + Equality. https://www.bloomberg.com/graphics/2023-generative-ai-bias

O’Brien, M. (2023, August 1.) Chatbots sometimes make things up. Is AI’s hallucination problem fixable? AP News. https://apnews.com/article/artificial-intelligence-hallucination-chatbots-chatgpt-falsehoods-ac4672c5b06e6f91050aa46ee731bcf4

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9. https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

Shaw, C., Bharadwaj, R., NeJame, L., Martin, S., Jason, N., & Fox, K. (2023, June 20). Time for class 2023: Bridging student and faculty perspectives on digital learning. Tyton Partners. https://tytonpartners.com/time-for-class-2023

Silberg, J., & Manyika, J. (2019, June 6). Tackling bias in artificial intelligence (and in humans). McKinsey & Company. https://www.mckinsey.com/featured-insights/artificial-intelligence/tackling-bias-in-artificial-intelligence-and-in-humans

Thomson, T., & Thomas, R. (2023, July 9). Ageism, sexism, classism, and more: 7 examples of bias in AI-generated images. The Conversation. https://theconversation.com/ageism-sexism-classism-and-more-7-examples-of-bias-in-ai-generated-images-208748

Weise, K., & Metz, C. (2023, May 1). When A.I. chatbots hallucinate. The New York Times. https://www.nytimes.com/2023/05/01/business/ai-chatbots-hallucination.html

Weiser, B. (2023, May 27). Here’s what happens when your lawyer uses ChatGPT. The New York Times. https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html


via :


Fixing Hallucinations in LLMs 修复 LLM 中的幻觉

Why LLMs hallucinate, approaches for mitigation, challenges with evaluation datasets, and more 为什么 LLM 会产生幻觉、缓解方法、评估数据集的挑战等

Sergei Savvov 谢尔盖・萨沃夫

Aug 28, 2023

Generative Large Language Models (LLMs) can generate highly fluent responses to various user prompts. However, their tendency to hallucinate or make non-factual statements can compromise trust.
生成式大型语言模型 (LLM) 可以对各种用户提示生成非常流畅的响应。然而,他们产生幻觉或做出非事实陈述的倾向可能会损害信任。

I think we will get the hallucination problem to a much, much better place… it will take us a year and a half, two years. — OpenAI CEO Sam Altman
我认为我们会把幻觉问题解决到一个好得多的地方… 这将需要一年半,两年的时间。— OpenAI 首席执行官 Sam Altman

img

Is this ChatGPT answer a hallucination?

As developers look to build systems with models, these limitations present a real challenge as the overall system must meet quality, safety, and groundedness requirements. For example, can we trust that an automatic code review provided by an LLM is correct? Or the returned answer to questions on how to handle insurance-related tasks is reliable?
当开发人员希望使用模型构建系统时,这些限制带来了真正的挑战,因为整个系统必须满足质量、安全性和接地性要求。例如,我们能相信 LLM 提供的自动代码审查是正确的吗?或者,关于如何处理保险相关任务的问题的返回答案是可靠的?

This article begins with an overview of how hallucination remains a persistent challenge with LLMs, followed by steps (and associated research papers) that address hallucination and reliability concerns.
本文首先概述了幻觉如何仍然是 LLM 的持续挑战,然后是解决幻觉和可靠性问题的步骤(和相关研究论文)。

Disclaimer: The information in the article is current as of August 2023, but please be aware that changes may occur thereafter.
免责声明:文章中的信息是截至 2023 年 8 月的最新信息,但请注意,此后可能会发生更改。

“Short” Summary “简短” 摘要

img

Comparison of experimental results

Hallucinations in Large Language Models stem from data compression and inconsistency. Quality assurance is challenging as many datasets might be outdated or unreliable. To mitigate hallucinations:
大型语言模型中的幻觉源于数据压缩和不一致。质量保证是一项挑战,因为许多数据集可能已经过时或不可靠。为了减轻幻觉:

  1. Adjust the temperature parameter to limit model creativity.
    调整温度参数以限制模型的创造力。
  2. Pay attention to prompt engineering. Ask the model to think step-by-step and provide facts and references to sources in the response.
    注意及时工程化。要求模型一步一步地思考,并在响应中提供事实和对来源的引用。
  3. Incorporate external knowledge sources for improved answer verification.
    整合外部知识源,以改进答案验证。

A combination of these approaches can achieve the best results.
这些方法的组合可以达到最佳效果。

What Is an LLM Hallucination? 什么是 LLM 幻觉?

img

Example of fabrication of facts: there were 12 Moon Walkers in total

A research paper from the Center for Artificial Intelligence Research defines a hallucination from an LLM as “when the generated content is nonsensical or unfaithful to the provided source content.”
人工智能研究中心(Center for Artificial Intelligence Research)的一篇研究论文将 LLM 的幻觉定义为 “当生成的内容毫无意义或不忠于所提供的源内容时”。

Hallucinations can be categorized into several types:
幻觉可分为几种类型:

  1. Logical Fallacies: The model errs in its reasoning, providing wrong answers.
    逻辑谬误:模型在推理中出错,提供错误的答案。
  2. Fabrication of Facts: Instead of responding with “I don’t know,” the model confidently asserts non-existent facts.
    Example: Google’s AI chatbot Bard makes a factual error in the first demo.
    捏造事实:该模型不是以 “我不知道” 来回应,而是自信地断言不存在的事实。 示例:Google 的 AI 聊天机器人 Bard 在第一个演示中犯了一个事实错误。
  3. Data-driven Bias: The model’s output may skew due to the prevalence of certain data, leading to incorrect results.
    Example: Political Biases Found in NLP Models.
    数据驱动的偏差:由于某些数据的普遍存在,模型的输出可能会出现偏差,从而导致不正确的结果。 示例:在 NLP 模型中发现的政治偏见。

Why LLMs Hallucinate 为什么 LLM 会产生幻觉

I liked the concept in this article: as we compress training data, models will inevitably hallucinate. Consider the compression ratios for some popular models:
我喜欢这篇文章中的概念:当我们压缩训练数据时,模型将不可避免地产生幻觉。考虑一些流行模型的压缩比:

img

Compression of training data

Of course, the key to this compression is that a generative model stores a mathematical representation of the relationship (probabilities) between input (text or pixels) instead of the input itself. More importantly, this representation lets us extract knowledge (by sampling or running queries/prompts).
当然,这种压缩的关键是生成模型存储了输入(文本或像素)之间关系(概率)的数学表示,而不是输入本身。更重要的是,这种表示让我们可以提取知识(通过抽样或运行查询 / 提示)。

Such compression reduces fidelity, similar to JPEG compression, as discussed in the New Yorker article. In essence, full recovery of the original knowledge becomes a difficult, if not impossible, task. Models’ tendency to imperfectly ‘fill in the blanks’ or hallucinate is the trade-off for such a compressed but helpful representation of knowledge.
这种压缩会降低保真度,类似于 JPEG 压缩,正如 New Yorker 文章中所讨论的那样。从本质上讲,完全恢复原始知识成为一项艰巨的任务,如果不是不可能的话。模型倾向于不完美地 “填空” 或产生幻觉,这是对这种压缩但有用的知识表示的权衡。

LLMs also hallucinate when their training dataset contains limited, outdated, or contradictory information about the question posed to them.
当他们的训练数据集包含有关向他们提出的问题的有限、过时或相互矛盾的信息时,LLM 也会产生幻觉。

Preparing for the Experiment 准备实验

This article aims to create and test practical steps to reduce hallucination and improve the performance of systems. For this purpose, after reviewing various datasets, I settled on the TruthfulQA Benchmark.
本文旨在创建和测试减少幻觉和提高系统性能的实际步骤。为此,在审查了各种数据集后,我选择了 TruthfulQA 基准测试。

img

Sample question

While the dataset has issues, such as discrepancies between correct answers and their sources, it remains the most suitable option due to its variety of topics and comprehensive coverage. I also appreciate that answers come in a quiz format, facilitating model testing. One can easily request the answer in JSON format:
虽然该数据集存在问题,例如正确答案与其来源之间存在差异,但由于其主题的多样性和全面的覆盖范围,它仍然是最合适的选择。我也很欣赏答案以测验的形式出现,便于模型测试。可以轻松地以 JSON 格式请求答案:

… Return response in JSON format, for example: [{“class”: “A”}]
… 返回 JSON 格式的响应,例如:[{“class”: “A”}]

I used a dataset with 800 rows, using GPT-3.5 turbo for its cost-effectiveness.
我使用了一个有 800 行的数据集,使用 GPT-3.5 turbo 以提高成本效益。

Other benchmarks for evaluating hallucination
评估幻觉的其他基准

Temperature Reduction 降温

A model’s temperature refers to a scalar value used to adjust the probability distribution predicted by the model. In the case of LLMs, it balances between sticking to what the model has learned from the training data and generating more diverse or creative responses. Generally, these creative answers are more prone to hallucinations.
模型的温度是指用于调整模型预测的概率分布的标量值。在 LLM 的情况下,它在坚持模型从训练数据中学到的内容和生成更多样化或创造性的响应之间取得了平衡。一般来说,这些有创意的答案更容易产生幻觉。

img

Comparison of experimental results on temperature reduction

For tasks that require veracity, strive towards an information-dense context and set temperature=0 to get answers grounded in context.
对于需要准确性的任务,应努力实现信息密集的上下文,并设置 temperature=0 以获得基于上下文的答案。

Chain of Thought Prompting and Self-Consistency 思维链提示和自洽

Benchmark errors can often be fixed by improving your prompt design. That’s why I paid more attention to this topic.
基准测试错误通常可以通过改进提示设计来修复。这就是为什么我更加关注这个话题。

LLMs often falter on multi-step reasoning tasks, like arithmetic or logic. Recent works indicate that providing examples of breaking the task into steps boosts performance. Remarkably, just prompting with “Let’s think step by step” without specific examples yields similar improvements.
LLM 经常在多步推理任务上步履蹒跚,例如算术或逻辑。最近的研究表明,提供将任务分解为多个步骤的示例可以提高性能。值得注意的是,在没有具体示例的情况下,仅使用 “让我们一步一步地思考” 进行提示会产生类似的改进。

Many articles delve into thought-chaining techniques. Essentially, they aim to make the model think step by step and self-verify. Below are some standout approaches:
许多文章都深入探讨了思维链技术。从本质上讲,他们的目标是让模型一步一步地思考并自我验证。以下是一些出色的方法:

img

Schematic illustrating various approaches to problem-solving with LLMs

Now, let’s delve into each method and evaluate their quality on the dataset.
现在,让我们深入研究每种方法,并在数据集上评估它们的质量。

1. Chain of Thoughts (CoT) 1. 思维链 (CoT)

The main idea of the article is to add “Think step by step” to the prompt:
文章的主要思想是在提示中加入 “一步一步思考”:

Think step by step before answering and return response in JSON format, for example: [{“class”: “A”}]”
在回答之前一步一步地思考,并以 JSON 格式返回响应,例如:[{“class”: “A”}]”

Evaluation: Accuracy = 58% 评价:Accuracy = 58%

2. Self Consistency with CoT (CoT-SC) 2. 与 CoT 的自洽 (CoT-SC)

The approach is an improved version of the previous idea. We ask the model to give several answers and then choose the best one by voting:
该方法是前一个想法的改进版本。我们要求模型给出几个答案,然后通过投票选择最好的一个:

Think step by step before answering and give three answers: if a domain expert were to answer, if a supervisor were to answer, and your answer. Here’s the response in JSON format:
在回答之前,一步一步地思考,并给出三个答案:如果领域专家要回答,如果主管要回答,以及你的答案。以下是 JSON 格式的响应:

Evaluation: Accuracy = 57% 评价:Accuracy = 57%

3. Tree of Thoughts (ToT) 3. 思想 (ToT) 之树

It is a framework that generalizes over chain-of-thought prompting and encourages the exploration of thoughts that serve as intermediate steps for general problem solving with language models. This approach enables an LM to self-evaluate the progress intermediate thoughts make toward solving a problem through a deliberate reasoning process. A sample ToT prompt is:
它是一个框架,它概括了思维链提示,并鼓励探索作为使用语言模型解决一般问题的中间步骤的思想。这种方法使 LM 能够自我评估中间思想通过深思熟虑的推理过程解决问题所取得的进展。ToT 提示示例为:

Imagine three different experts are answering this question. All experts will write down 1 step of their thinking, then share it with the group. Then all experts will go on to the next step, etc. If any expert realises they’re wrong at any point then they leave. Here’s the response in JSON format:
想象一下,有三位不同的专家正在回答这个问题。所有专家将写下他们的想法的一个步骤,然后与小组分享。然后所有专家将继续进行下一步,等等。如果任何专家在任何时候意识到他们错了,那么他们就会离开。以下是 JSON 格式的响应:

Evaluation: Accuracy = 37% 评价:Accuracy = 37%

4. Tagged Context Prompts 4. 标记的上下文提示

The method includes generating question sets, creating context prompts through summaries, and verifying context prompts and questions.
该方法包括生成问题集、通过摘要创建上下文提示以及验证上下文提示和问题。

Given the complexity of additional dataset generation, I adjusted my approach to request the source link and facts:
考虑到额外数据集生成的复杂性,我调整了我的方法,以请求源链接和事实:

img

Schematic illustrating my version of Tagged Context Prompts

Provide details and include sources in the answer. Return response in JSON format, for example:
[{“class”: “A”, “details”: “Human blood in veins is not actually blue. Blood is red due to the presence of hemoglobin”, “source”: “https://example.com"}]
在答案中提供详细信息并包含来源。以 JSON 格式返回响应,例如: [{“class”: “A”, “details”: “静脉中的人类血液实际上并不是蓝色的。由于血红蛋白的存在,血液是红色的 “, ” 来源 “: ”https://example.com“}]

Evaluation: Accuracy = 61% 评价:Accuracy = 61%

5. Self-Correct 5. 自我纠正

It may be one of the more advanced techniques for prompt engineering. The idea is to get the model to double-check and criticise its results, which you can see below:
它可能是用于快速工程的更先进的技术之一。这个想法是让模型仔细检查和批评其结果,你可以在下面看到:

img

Schematic illustration of verifying the output

Choose the most likely answer from the list [“A”, “B”, “C”, “D”, “E”]. Then carefully double-check your answer. Think about whether this is the right answer, would others agree with it? Improve your answer as needed.
Return response in JSON format, for example: [{“first_answer”:”A”, “final_answer”:”B”}]
从列表中选择最可能的答案 [“A”、“B”、“C”、“D”、“E”]。然后仔细仔细检查你的答案。想一想这是否是正确的答案,其他人会同意吗?根据需要改进您的答案。 返回 JSON 格式的响应,例如:[{“first_answer”:“A”, “final_answer”:“B”}]

Evaluation: Accuracy = 58% 评价:Accuracy = 58%

6. Several Agents 6. 几种代理商

img

Schematic illustrating Several Agents approach

Multiple language model instances propose and debate their individual responses and reasoning processes over multiple rounds to arrive at a common final answer. This approach includes several prompts:
多个语言模型实例在多轮比赛中提出并辩论他们的个人反应和推理过程,以得出共同的最终答案。此方法包括几个提示:

Prompt 1提示 1

Give the facts and your thoughts step by step to find the right answer to this question: {QUESTION}
一步一步地给出事实和你的想法,以找到这个问题的正确答案:{问题}

Prompt 2提示 2

Using the solutions from other agents as additional information, choose the correct answer choice: {QUESTION} {ANSWERS}. Return response in JSON format…
使用来自其他代理的解决方案作为附加信息,选择正确的答案选项:{QUESTION} {ANSWERS}。以 JSON 格式返回响应…

Evaluation: Accuracy = 54% 评价:Accuracy = 54%

I would not recommend using this approach in real applications because you need to make two or more requests. This not only increases API costs but also slows down the application. In my case, it took more than two hours to generate responses to 800 questions.
我不建议在实际应用程序中使用此方法,因为您需要发出两个或更多请求。这不仅会增加 API 成本,还会减慢应用程序的速度。就我而言,花了两个多小时才生成对 800 个问题的回答。

Use An External Knowledge Base 使用外部知识库

As mentioned, hallucination in LLMs stems from attempting to reconstruct compression information. By feeding relevant data from a knowledge base during prediction, we can convert the pure generation problem to a simpler search or summarization problem grounded in the provided data.
如前所述,LLM 中的幻觉源于试图重建压缩信息。通过在预测过程中从知识库中输入相关数据,我们可以将纯粹的生成问题转换为基于所提供数据的更简单的搜索或汇总问题。

Since, in practice, retrieving relevant data from a knowledge base is non-trivial, I focused on a small sample (~300 rows) from the dataset I had collected.
由于在实践中,从知识库中检索相关数据并非易事,因此我专注于从我收集的数据集中抽取一小块样本(~300 行)。

img

Schematic illustration of the use of external sources

In the end, my prompt looked like this:
最后,我的提示是这样的:

Using this information {INFORMATION} choose the correct answer {QUESTION} and return response in JSON format…
使用此信息 {INFORMATION},选择正确答案 {QUESTION},并以 JSON 格式返回响应…

Evaluation: Accuracy = 65% 评价:Accuracy = 65%

More work is still needed to filter/rank retrieved passages and decide how much of the LLM context budget is used in this exercise. Also, retrieval and ranking can introduce delays crucial for real-time interactions.
仍然需要更多的工作来过滤 / 排名检索到的段落,并决定在这个练习中使用了多少 LLM 上下文预算。此外,检索和排名可能会引入对实时交互至关重要的延迟。

Another interesting approach is Retrieval-Augmented Generation (RAG), which merges the capabilities of retrieval and text generation in Large Language Models. This approach pairs a retriever system for fetching relevant document snippets from a vast corpus with an LLM that generates answers based on the retrieved information.
另一种有趣的方法是检索增强生成(RAG),它融合了大型语言模型中的检索和文本生成功能。这种方法将用于从庞大的语料库中获取相关文档片段的检索器系统与根据检索到的信息生成答案的 LLM 配对。

img

Schematic illustration of RAG, image by Heiko Hotz

Some related articles
一些相关文章

#External Knowledge Base 提示工程和外部知识库

This approach combines the previous points. Different techniques of prompt engineering and external knowledge base are used. I implemented logic from the CRITIC framework:
这种方法结合了前面几点。使用了不同的提示工程技术和外部知识库。我从 CRITIC 框架中实现了逻辑:

img

The CRITIC framework

Using this information {INFORMATION} choose the correct answer {QUESTION} Then carefully double-check your answer. Think about whether this is the right answer, would others agree with it? Improve your answer as needed.
Return response in JSON format, for example: [{“first_answer”:”A”, “final_answer”:”B”}]
使用此信息 {INFORMATION},选择正确答案 {QUESTION},然后仔细仔细检查您的答案。想一想这是否是正确的答案,其他人会同意吗?根据需要改进您的答案。 返回 JSON 格式的响应,例如:[{“first_answer”:“A”, “final_answer”:“B”}]

Evaluation: Accuracy = 67% 评价:Accuracy = 67%

Although the quality has not improved that much, this is due to the problems in the dataset I used. Some “correct” answers don’t match the information from the sources.
虽然质量没有太大提高,但这是由于我使用的数据集中的问题。一些 “正确” 的答案与来源的信息不匹配。

Takeaways 要点

img

Using the techniques in the article, we fixed the hallucinations

At first glance, reducing hallucinations in LLMs is not rocket science: adjust the temperature, play with prompts, and link external data sources. However, as with many things, nuances abound. Each method has its strengths and drawbacks.
乍一看,减少 LLM 中的幻觉并不是火箭科学:调整温度、玩弄提示并链接外部数据源。然而,与许多事情一样,细微差别比比皆是。每种方法都有其优点和缺点。

My key recommendation? Prioritize prompt design — it’s the most cost-effective and efficient way to fix hallucinations.
我的主要建议是什么?优先考虑提示性设计 —— 这是修复幻觉最具成本效益和最高效的方法。

References

  1. Practical Steps to Reduce Hallucination and Improve Performance of Systems Built with Large Language Models — One of the best articles I’ve found.
  2. Reading list of hallucinations in LLMs — A useful GitHub repository with various links about hallucinations in LLMs.

via:

Fixing Hallucinations in LLMs. Why LLMs hallucinate, approaches for… | by Sergei Savvov | Better Programming

https://betterprogramming.pub/fixing-hallucinations-in-llms-9ff0fd438e33


国内公众号相关的文章(按时间序)

大模型「幻觉」,看这一篇就够了 | 哈工大华为出品

大模型 “幻觉”,终于有系统综述了!

详细阐述了幻觉定义、分类、导致幻觉的原因,还有检测幻觉、减轻幻觉的方法。

这篇最新综述来自哈工大和华为,一 po 出就在网上火得不行:

图片

具体来说,文中用一套新的范畴框架来定义模型幻觉,并将其分为事实性幻觉忠实性幻觉两大类。

此外,它还总结了模型产生幻觉的三大来源:数据源训练过程推理,并给出了对应的减轻幻觉策略。

一图预览,观感是这样婶儿的:

图片

可谓清晰又明了。目前相关推文浏览 15 万 +,转赞收藏 2000+,网友纷纷评论:

找时间好好看。

图片

还有一位网友的评论亮了:

有意思的是,论文太长,我得用 ChatGPT 帮我读。

图片

幻觉作为大模型的一种 “通病”,找到了病根,也好对症下药。

北大数学教授董彬也曾讲,作为研究者,自己其实是比较喜欢大模型幻觉的:

因为幻觉和创造 / 创新其实只有一线之隔。

那么这篇综述具体如何解剖大模型幻觉现象?一起来看看。

大模型的幻觉 “病理”

大模型出现幻觉,简而言之就是 “胡说八道”。

用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。

正如上文提到的,研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。

图片
左,事实性幻觉;右,忠实性幻觉

事实性幻觉,是指模型生成的内容与可验证的现实世界事实不一致。

比如问模型 “第一个在月球上行走的人是谁?”,模型回复 “Charles Lindbergh 在 1951 年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是 Neil Armstrong。

事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。

忠实性幻觉,则是指模型生成的内容与用户的指令或上下文不一致。

比如让模型总结今年 10 月的新闻,结果模型却在说 2006 年 10 月的事。

忠实性幻觉也可以细分,分为指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致三类(推理步骤以及与最终答案之间的不一致)。

那么致使大模型产生幻觉的原因都有哪些?

首先 “病从口入”,大模型的粮食数据,是致使它产生幻觉的一大原因。

这其中就包括数据缺陷、数据中捕获的事实知识的利用率较低。

具体来说,数据缺陷分为错误信息和偏见(重复偏见、社会偏见),此外大模型也有知识边界,所以存在领域知识缺陷和过时的事实知识。

即便大模型吃掉了大量数据,也会在利用时出现问题。

大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。比如说,如果训练数据中频繁共现 “加拿大” 和 “多伦多”,那么大模型可能会错误地将多伦多识别为加拿大的首都。

此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

图片

除了数据,训练过程也会使大模型产生幻觉。

主要是预训练阶段(大模型学习通用表示并获取世界知识)、对齐阶段(微调大模型使其更好地与人类偏好一致)两个阶段产生问题。

预训练阶段可能会存在:

  • 架构缺陷。基于前一个 token 预测下一个 token,这种单向建模阻碍了模型捕获复杂的上下文关系的能力;自注意力模块存在缺陷,随着 token 长度增加,不同位置的注意力被稀释。
  • 曝露偏差。训练策略也有缺陷,模型推理时依赖于自己生成的 token 进行后续预测,模型生成的错误 token 会在整个后续 token 中产生级联错误。

对齐阶段可能会存在:

  • 能力错位。大模型内在能力与标注数据中描述的功能之间可能存在错位。当对齐数据需求超出这些预定义的能力边界时,大模型会被训练来生成超出其自身知识边界的内容,从而放大幻觉的风险。
  • 信念错位。基于 RLHF 等的微调,使大模型的输出更符合人类偏好,但有时模型会倾向于迎合人类偏好,从而牺牲信息真实性。

大模型产生幻觉的第三个关键因素是推理,存在两个问题:

  • 固有的抽样随机性:在生成内容时根据概率随机生成。
  • 不完美的解码表示:上下文关注不足(过度关注相邻文本而忽视了源上下文)和 softmax 瓶颈(输出概率分布的表达能力受限)。

检测大模型病症

分析了大模型的幻觉病因,研究人员还给出了一份模型幻觉检测基准。

针对事实性幻觉,已有检索外部事实和不确定性估计两种方法。

检索外部事实是将模型生成的内容与可靠的知识来源进行比较。

图片

基于不确定性估计的幻觉检测方法,可以分为两类:基于内部状态的方法和基于行为的方法。

基于内部状态的方法主要依赖于访问大模型的内部状态。例如,通过考虑关键概念的最小标记概率来确定模型的不确定性。

基于行为的方法则主要依赖于观察大模型的行为,不需要访问其内部状态。例如,通过采样多个响应并评估事实陈述的一致性来检测幻觉。

图片

检测忠实性幻觉的方法,研究人员用一张图概括了五种不同的方法:

  • 基于事实的度量,测量生成内容和源内容之间事实的重叠程度来评估忠实性。
  • 分类器度量:使用训练过的分类器来区分模型生成的忠实内容和幻觉内容。
  • 问答度量:使用问答系统来验证源内容和生成内容之间的信息一致性。
  • 不确定度估计:测量模型对其生成输出的置信度来评估忠实性。
  • 提示度量:让大模型作为评估者,通过特定的提示策略来评估生成内容的忠实性。

图片

了解了如何度量幻觉后,就是减轻幻觉的方法了。

对症下药减轻幻觉

研究人员根据致幻原因,详细总结了现有减轻幻觉现象的研究。

1、数据相关的幻觉。

减少错误信息和偏见,最直观的方法是收集高质量的事实数据,并进行数据清理以消除偏见。

对于知识边界的问题,有两种流行方法。一种是知识编辑,直接编辑模型参数弥合知识差距。另一种通过检索增强生成(RAG)利用非参数知识源。

检索增强具体分为三种类型:一次性检索、迭代检索和事后检索。

图片

一次性检索是将从单次检索中获得的外部知识直接预置到大模型的提示中;迭代检索允许在整个生成过程中不断收集知识;事后检索是基于检索的修订来完善大模型输出。

2、训练相关的幻觉。

根据致幻原因,可以完善有缺陷的模型架构,目前已有许多相关研究。

图片

从模型预训练阶段来讲,最新进展试图通过完善预训练策略、确保更丰富的上下文理解和规避偏见来应对这一问题。

比如针对模型对文档式的非结构化事实知识理解碎片化、不关联,有研究在文档的每个句子后附加一个 TOPICPREFIX,将它们转换为独立的事实,从而增强模型对事实关联的理解。

此外,还可以通过改进人类偏好判断、激活引导,减轻对齐错位问题。

3、推理相关的幻觉。

不完美的解码通常会导致模型输出偏离原始上下文。

研究人员探讨了两种高级策略,一种是事实增强解码,另一种是译后编辑解码。

此外,忠实度增强解码优先考虑与用户说明或提供的上下文保持一致,并强调增强生成内容的一致性。现有工作可以总结为两类,包括上下文一致性和逻辑一致性。

有关上下文一致性的最新研究之一是上下文感知解码(CAD),通过减少对先验知识的依赖来修改输出分布,从而促进模型对上下文信息的关注。

有关逻辑一致性的最新一项研究包括知识蒸馏框架,用来增强思维链提示中固有的自洽性。

图片

论文链接:https://arxiv.org/abs/2311.05232


via :

  • 大模型「幻觉」,看这一篇就够了 | 哈工大华为出品 * 西风 发自 凹非寺 量子位 | 公众号 QbitAI 2023 年 11 月 18 日 07:47 北京 *

https://mp.weixin.qq.com/s/5vE1Nnfiq_iwP2s8wT4xXQ


“幻觉” 问题根本无解!为什么我们的大模型会 “说胡话”?

“幻觉”(Hallucination),现在已经是大语言模型领域无人不知、无人不晓的热词。我们在和 ChatGPT 等聊天机器人对话的时候,有时会遇到生成式人工智能根据提示词生造出一些事实的情况。通俗点说,就是现在的 AI 都有概率「说胡话」,聊着聊着就和你侃大山,答非所问。

图片

张飞哭晕在厕所

最近,一篇关于幻觉问题的论文就在 Hacker News 上引起了激烈讨论,很多开发者聊着聊着就聊到了哲学问题上:

图片

而这篇论文的标题也非常具有冲击性 ——《幻觉不可避免:大型语言模型的内在局限性》(Hallucination is Inevitable: An Innate Limitation of Large Language Models),作者是隶属于新加坡国立大学计算学院的 Ziwei Xu, Sanjay Jain 和 Mohan Kankanhalli。这篇论文试图证明大语言模型(LLMs)中的幻觉无法完全消除,即使采用现有的幻觉缓解方法也无法完全解决。

论文链接:https://arxiv.org/abs/2401.11817v1

图片

如今,大模型厂商各显神通,幻觉缓解手段也是层出不穷;而对于严重依赖于模型输出的决策场景,如医疗诊断、法律咨询等领域,开发者会采取更为保守的方法,限制模型在高风险情境下的自主生成行为,或者在必要时直接拒绝回答不确定的问题。

但是,如果幻觉真的无法避免,那我们以后岂不是要盼着概率过日子?接下来,让我们一起解读这篇论文,看看幻觉背后隐藏的真相究竟是什么。

图片

到底什么是幻觉?

尽管现有研究从数据、训练及推理等角度揭示了大模型产生幻觉的多种原因,但关于彻底消除幻觉的可能性尚无定论。这一核心问题对于理解大模型能力的潜在极限至关重要,而由于无法穷尽所有可能输入进行测试,仅凭经验方法难以解答。

于是,论文作者着手正式定义幻觉,并论证了在大模型中完全消除幻觉实际上是不可能的。他们构建了一个形式化的框架,其中幻觉被界定为大模型与真实世界可计算函数间的不一致。通过结合学习理论成果,作者展示大模型无法学习全部可计算函数,因而必定会出现幻觉。

考虑到实际世界的复杂性远超形式化世界,此结论同样适用于现实生活中的大模型。此外,针对受时间复杂度限制的现实大模型,文章提出了易于诱发幻觉的任务实例,并通过实验证据加以支撑。最后,基于形式化框架,作者探讨了现有缓解幻觉策略的内在机制及其对大模型安全有效部署的实际影响。

幻觉的基本概念与定义

幻觉在心理学和神经科学中通常指的是个体在没有外部刺激的情况下感知到不存在的事物。在大语言模型的背景下,幻觉被定义为模型生成的与事实不符或毫无意义的信息。这种现象在模型的输出中表现为虚假但听起来合理的陈述,引发了对安全性和伦理的担忧。

幻觉在大型语言模型中的具体表现

在大模型中,幻觉的表现可以归类为内在幻觉和外在幻觉

  • 内在幻觉发生在模型的输出与提供的输入相矛盾时,例如与提示信息不符。
  • 外在幻觉则发生在模型的输出无法通过输入中的信息进行验证。

此外,幻觉还可以通过用户指令的不一致性来分类,包括指令性、上下文性和逻辑性不一致。这些幻觉可能源于数据收集、训练和推理过程中的多种问题,如启发式数据收集、固有偏差、不完美的表示学习、错误的解码、暴露偏差和参数知识偏差。

图片

用数学定义现实世界!

在探究大模型的幻觉倾向时,研究者们首先形式化定义了整个世界,其中幻觉被定义为计算机可实现的大模型与可计算的真实函数之间的不一致性。实验的目的是验证大模型是否能够学习所有可计算的函数,从而总是产生与真实函数一致的输出,即是否能完全避免幻觉。

一言以蔽之,就是用数学来解释幻觉。实验中,研究者们利用学习理论的结果,证明了大模型无法学习所有可计算的函数,因此总会产生幻觉。

定义 1(字母表和字符串):字母表 A 是一个包含 N 个标记的 有限集合 A={a0, a1, …, aN-1}。字符串 是通过 n 次连接标记得到的序列 w0, w1…wn-1。

定义 2(大模型):设 S 为 字母表 A 上所有有限长度字符串的 可计算集合 b,(s0, s1, …) 为其元素的一一对应枚举。大模型 h 被记为一个函数,能在有限时间内使用 预测令牌 h (s) 完成输入字符串 s∈S。函数 h 通过一系列输入 - 完成对的训练样本程序性地获得。

定义 3(P 验证的大模型):设 P 为一个可计算算法,当函数具有特定属性(例如全可计算性或多项式时间复杂度)时返回 “真”,则 P 验证的大模型 是按定义 2 所述的大模型,可以在有限步骤内被 P 证明具有该特定属性。

图片

根据定义 3,P 可证明的大模型构成了所有大模型的一个真子集。作者将大模型视为全体可计算函数的一个子集。与一般的全体可计算函数不同,大模型可以根据其输出结果的合理性程度划分为一个连续谱。在 “nonsensical”(无意义)一端是一个无感知的标记预测器,它会产生对输入字符串 s 的无意义补全;而在 “ideal”(理想)一端,则是一个无幻觉函数,能够将任何结构良好的输入字符串补充为合理且真实的文本。“ideal” 一端以虚线表示,因为它表明任何大模型都无法达到这样的理想状态,因此不在大模型集合之内。

在这两者之间是现实世界的大模型:它们的输出大多数时候是可以理解的,但偶尔会发生 “幻觉”,生成非事实性的陈述。这种谱系关系以及大模型与全体可计算函数之间的联系在上图中得以展现。

在形式化世界中,幻觉被定义为大模型输出与 ideal 正确结果之间的不匹配。在这个世界里,存在一个可计算的真值函数 f,它对所有输入字符串 s∈S 都能产生唯一正确的补全 f (s)。

形式化世界的定义如下:

定义 4(形式化世界 f):对于给定的 真值函数 f,其 形式化世界 Gf={(s, f (s)) | s ∈ S} 是一个集合,其中对于任意输入 字符串 s,f (s) 是唯一的正确补全结果。

训练样本 T 则是一组从形式化世界中获得的输入 - 输出配对。

定义 5(训练样本 T):训练样本 T 是一个集合 {(s0, y0),(s1, y1), …, (si, yi), … | si ∈ S, i ∈ N, yi = f (si)}。这个集合代表了 真值函数 f 对输入字符串如何回应或完成的概括。

当训练好的大模型 h 未能完全复制真值函数 f 的输出时,我们称该模型相对于 f 发生了幻觉。

定义 6(幻觉):若存在 s∈S 使得 h (s) ≠ f (s),则模型相对于 真值函数 f 出现幻觉。

基于此定义,幻觉不再与真实世界中的正确性或真实性直接相关,而是指大模型 Gh 所构建的形式世界与其对应的真值函数 Gf 形式世界之间的不一致性。Gh 和 Gf 之间可能存在以下三种关系:

  • 完全幻觉:Gh ∩ Gf = ∅,即大模型在所有 s∈S 上均发生幻觉。
  • 部分幻觉:Gh ∩ Gf ≠ ∅且 Gh ≠ Gf,即大模型在部分 s∈S 上发生幻觉。
  • 无幻觉:Gh = Gf,表示大模型是针对 f 而言无幻觉的理想模型。

图片

紧接着开始训练大模型。

定义 7(基本问题):对于任何给定的 真实值函数 f,是否可以通过使用 训练样本集 T 来训练一个 大模型 h,使其满足对于所有 s∈S,都有 h (s) = f (s)?

定义 8(大模型的训练与部署):大模型 h 通过以下可计算实现的步骤进行训练和部署。

输入:一系列无限或者大量且连续流入的 训练样本流 T,表示为 T = ((s0, f (s0)), (s1, f (s1)), …),其中每个样本对由 字符串 si 和其对应的 真值函数 f (si) 组成。

输出:经过训练后的 大模型 h [i],期望该模型在某次迭代 i∈N 时能够近似或等同于 f。

训练过程:将大模型初始化为参数随机分布的模型,记为 h [0]。设置 迭代计数器 i 为 0。

训练与验证迭代:(a) 如果达到停止准则(即模型已准备好),则结束当前迭代。(b) 从 训练样本流 T 中取出一对 样本数据 (si, f (si))。© 根据至今为止的所有样本 {(sj , f (sj )) | j ≤ i} 更新 大模型 h [i] 至 h [i+1]。(d) 让 迭代计数器 i 递增,即 i ← i + 1,并返回继续训练。

部署阶段:将最终训练得到的 模型 h [i] 作为 最终模型 h 进行部署,并结束整个训练程序。

图片

如上图所示,插图 (a) 展示了现实世界的语料库,它包含了 (b) 形式化世界 中 真值函数 f 及其 训练样本 T 的所有内容。在 © 部分,展示了根据定义 8 训练 大模型 h 的过程,该过程通过使用训练样本不断更新模型,直到达到停止准则为止。最后,在 (d) 部分,经过训练的大模型被部署,并针对未见过的 字符串 s 生成输出结果。幻觉的定义是通过比较大模型生成的 答案 h (s) 与 真实值 f (s) 来实现的。

实验结果表明,**无论模型架构、学习算法、提示技术或训练数据如何,大模型在形式化世界中总是不可避免地会产生幻觉。**由于形式化世界是真实世界的一部分,这一结果也适用于真实世界中的大模型。此外,实证研究表明,即使是最先进的大模型,在某些真实世界问题中也倾向于产生幻觉,这验证了理论结果的有效性。

图片

无法彻底解决的幻觉,应该如何缓解?

目前,减轻大模型幻觉的方法主要依据两大原则:**提升大模型的能力,并通过训练样本或归纳偏置向大模型提供更多有关真实世界的知识。**例如,可以通过增大模型参数和训练数据量来增强大模型的复杂性,或者采用基于检索的技术、提示策略以及新的解码方法来减少幻觉现象。然而,这些措施都有其局限性,比如在大模型无法捕捉到真实世界函数时,单纯增加参数和数据是无效的。

尽管有多种尝试减轻幻觉的手段,但已有研究指出,在形式化世界中,大模型不可避免地会产生幻觉,这意味着在现实世界中也无法完全根除幻觉。因此,未来的研究路径可能包括更深入探索幻觉的本质特征、如何控制和降低幻觉的程度,以及研发能够检测并纠正幻觉的外部知识库与推理工具。此外,对大模型安全边界的探究对于确保大模型的持续健康发展至关重要。

图片

图源:AIGC

在实际应用中,大模型在关键决策支持方面存在一定的局限性。由于大模型在处理某些问题时会产生幻觉,即生成看似合理但实际上并不准确或无意义的信息,这种现象在关键决策过程中可能导致严重后果。例如,在医疗诊断、金融风险评估或法律咨询等领域过度依赖大模型的输出,可能会导致错误的判断和决策。

大模型的幻觉现象还可能对社会伦理产生潜在影响。由于大模型生成的内容可能包含偏见、误导信息或不准确的事实,这些输出可能会误导公众,影响社会观念和行为。例如,在生成新闻摘要或历史事件描述时,大模型可能会无意间传播错误信息,从而扭曲人们对事件的理解和记忆。此外,在创作文学作品或艺术创意时,大模型可能会生成独特但非真实的素材,尽管在某些情况下这被视为创新,但也可能引发关于版权、原创性和真实性的争议。

然而,**这篇论文揭示出幻觉问题是大模型内在固有的,无法完全消除。**因此,未来的研究将更多地关注如何减轻幻觉现象的影响,并探讨如何在确保安全和可靠性的前提下充分利用大模型的优势。


via:

  • “幻觉” 问题根本无解!为什么我们的大模型会 “说胡话”? * 计算机教育 2024 年 03 月 22 日 08:00 北京 来源:CSDN 整理:王启隆 *

https://mp.weixin.qq.com/s/whJ1D4jFKUVhooF8gx9VpQ


OpenAI 翁荔提出大模型「外在幻觉」:万字 blog 详解抵抗办法、产幻原因和检测方式

大模型幻觉还分内在、外在了 ——

OpenAI 华人科学家翁荔最新 Blog,提出LLM 外在****幻觉(extrinsic hallucination)。

图片

有别于代指模型生成与现实不符、虚构、不一致或者毫无意义的内容,翁荔将 LLM “幻觉” 问题具体化为**模型输出内容是虚构的,**并且不基于所提供的上下文或世界知识

由此,幻觉有两种类型:

  • 上下文内幻觉:模型输出应该与上下文中的源内容一致(出现上下文内幻觉时,输出与源内容不一致)。
  • 外在幻觉:模型输出应该基于预训练数据集。然而,考虑到预训练数据集的规模,检索并识别每次生成的冲突成本过高。如果将预训练数据集看作是世界知识的象征,那么本质上是试图确保模型输出是事实性的并可以通过外部世界知识进行验证。同样重要的是,当模型不了解某个事实时,它应该明确表示不知道

图片

之前,翁荔还提出过 Agent 公式:Agent = 大模型 + 记忆 + 主动规划 + 工具使用,被一些网友称为是 “看到的有关 Agent 的最好的文章”。

图片
图片

而这次关于大模型幻觉的这篇 Blog,同样 “重工”,文章超长,足足 24 篇参考文献:

图片

翁荔重点关注外在幻觉,讨论了三个问题:产生幻觉的原因是什么?幻觉检测,抵抗幻觉的方法。

图片

量子位在不改变原意的情况下,对原文进行了编译整理。

量子位已获原作者授权翻译转载。

原文在这里:

https://lilianweng.github.io/posts/2024-07-07-hallucination/

产生幻觉的原因是什么?

考虑到一个标准的可部署 LLM 需要经过预训练和微调来进行对齐和改进,所以原因分析从这两个阶段入手。

预训练数据问题

预训练数据集旨在代表所有可获得的书面形式的世界知识,因此体量巨大。

从公共互联网爬取数据是最常见的选择,但这就导致可能会出现一些过时、缺失或错误的信息。由于模型可能仅仅通过最大化对数似然来错误地记忆这些信息,所以模型可能会犯错误。

微调新知识

通过监督微调(SFT)和人类反馈强化学习(RLHF)来微调预训练 LLM 是提高模型某些能力(例如指令跟踪)的常用技术。微调阶段难免引入新知识。

而微调通常消耗的计算资源较少,通过小规模的微调模型是否能可靠地学习新知识还有待商榷

Gekhman 等人在今年的一项研究中讨论了一个问题:用新知识进行 LLM 微调是否会促使幻觉现象的发生。

他们发现:LLM 学习带有新知识的微调示例,要比学习与模型预先存在的知识一致的示例,学得更慢;一旦学习了这些带有新知识的示例,模型产生幻觉的倾向就会增加。

具体来说,给定一个封闭式问答数据集(即 EntityQuestions)𝐷=(𝑞,𝑎),将𝑃Correct (𝑞,𝑎;𝑀,𝑇) 定义为模型 M 准确生成正确答案的可能性的估计,当使用随机示例和一定的解码温度𝑇来提示时,问题𝑞的正确答案是𝑎。

他们根据𝑃Correct (𝑞,𝑎;𝑀,𝑇) 不同条件将示例分为 4 个类别:Known 组(包括三个子组:HighlyKnown、MaybeKnown、WeakKnown)、Unknown 组。

图片

实验中的一些有趣观察,其中验证集(dev set)的准确率被视为幻觉的象征性指标:

  • Unknown 拟合速度明显比 Known 慢得多;
  • 当 LLM 拟合了大多数 Known 训练示例,但只拟合了少数 Unknown 示例时,可以获得最佳表现;
  • 当大多数 Unknown 示例被学习后,模型开始产生幻觉

图片

这些来自 Gekhman 等人的研究结果,指出了使用监督微调来更新 LLM 知识的风险。

幻觉检测

检索增强评估

为量化模型的幻觉现象,Lee 等人 2022 年引入了一个新的基准数据集FactualityPrompt,该数据集包含了事实性和非事实性的提示,使用维基百科文档或句子作为事实性的基础知识库。

维基百科文档是来自 FEVER 数据集的已知真实信息,而句子则是通过 tf-idf 或基于句子嵌入的相似度选择的。

图片

在给定模型续写和配对的维基百科文本的情况下,考虑了两种评估幻觉的指标:幻觉命名实体(NE)错误率蕴含比率(Entailment ratios)。

较高的 NE 错误率和较低的蕴含比率表明事实性较高,研究发现这两个指标都与人类注释相关,较大模型在此基准上表现更佳。

此外,Min 等人 2023 提出了FActScore,将长文生成分解成多个原子事实,并根据维基百科等知识库单独验证每个事实。然后可以测量每个模型生成的知识来源支持的句子的比率(精度),FActScore 是一组提示中模型生成的平均精度。

该论文在人物传记生成任务上试验了多种事实性验证方式,发现使用检索比无上下文 LLM 具有更好的一致****性。在检索增强方法中,最佳估计器的选择取决于模型。

  • 无上下文 LLM:直接使用 “True or False?” 提示 LLM,无需附加上下文

  • 检索→LLM:以从知识来源检索的𝑘相关段落作为上下文进行提示

  • 非参数概率 (NP):通过掩码 LM 计算原子事实中标记的平均似然度,并用其进行预测

  • 检索→LLM+NP:两种方法的集成

关于模型幻觉行为的一些有趣的观察:

  • 在传记生成任务中,越稀有的实体的错误率越高
  • 在生成内容中较晚提及的事实的错误率也较高
  • 使用检索来为模型生成提供基础可以显著帮助减少幻觉现象

Wei 等人 2024 年还提出了一种评估 LLM 长篇事实性的方法,名为SAFE(Search-Augmented Factuality Evaluator)。

与 FActScore 相比,主要区别在于 SAFE 使用语言模型作为 Agent,通过多步骤过程迭代地发出谷歌搜索查询,并推理搜索结果是支持还是不支持该事实。

在每一步中,Agent 基于待检查的事实以及之前获得的搜索结果生成搜索查询。经过若干步骤后,模型进行推理以确定该事实是否得到搜索结果的支持。

根据实验,尽管 SAFE 方法的成本比人类注释低 20 倍,但其效果却优于人类注释:与人类的一致率为 72%,在意见不一致时胜过人类的比率为 76%。

图片

SAFE 评估指标是 F1@K。对于长篇事实性的模型响应,理想情况下应同时达到精确度和召回率,因为响应应同时满足:

  • 事实性的:通过精确度衡量,即整个响应中被支持的事实占所有事实的百分比。
  • 长篇****的:通过召回率衡量,即提供的事实占应出现在响应中的所有相关事实的百分比。因此,要考虑最多支持的事实数量𝐾。

给定模型响应𝑦,指标 F1@K 定义为:

图片
图片

另外,Chern 等人 2023 年提出了遵循标准的事实核查工作流程FacTool。它旨在检测包括基于知识的问答、代码生成、解决数学问题以及科学文献审查等多种任务中的事实错误。步骤包括:

  • 声明提取:通过提示 LLM 提取所有可验证的声明。
  • 查询生成:将每个声明转换为适合外部工具的一系列查询,例如搜索引擎查询、单元测试用例、代码片段和论文标题。
  • 工具查询与证据收集:查询外部工具,如搜索引擎、代码解释器、谷歌学术,并获取返回结果。
  • 一致性验证:根据外部工具提供的证据支持程度,为每个声明分配一个二进制的事实性标签。

图片

基于采样的检测

Manakul 等人 2023 年提出了依赖于对来自黑盒 LLM 的多个样本进行一致性检查 ——SelfCheckGPT,以识别事实性错误。

考虑到灰盒事实核查测量需要访问 LLM 的 token 级别的 logprob,SelfCheckGPT仅需使用不依赖外部知识库的样本,因此黑盒访问就足够了,无需外部知识库。

该方法使用不同的指标来衡量模型响应与其它随机模型样本之间的一致性,包括 BERTScore、NLI、提示(询问是 / 否)等。在对 GPT-3 生成的 WikiBio 段落进行实验检测时,使用提示的 SelfCheckGPT 似乎表现最佳。

图片

校准未知知识

让模型对无法回答或未知问题生成答案可能会引发幻觉。TruthfulQA(Lin 等人,2021 年)和SelfAware(Yin 等人,2023 年)是两个基准测试,用以衡量模型在这类情况下生成真实回应的能力,前者是为了强调人类的错误而对抗性构建的,后者包含了因其性质而无法回答的问题。

面对这些问题时,模型应该拒绝回答或提供相关信息

在 TruthfulQA 中,测试问题是根据人类常见的误解或错误对抗性地设计的。这个基准包含了覆盖健康、法律、金融和政治等 38 个话题的 817 个问题。

在进行测试时,最佳 LLM 的准确率为 58%,而人类可以达到 94%。研究团队发现,由于常见的误解,较大的模型不太真实**,但这种趋势并未在其它标准**(非对抗性)事实基准中显示出来

以下是 GPT-3 在 TruthfulQA 上的错误答案示例:

图片

Yin 等人 2023 年研究了SelfAware的概念,指的是语言模型是否知道它们知道什么或不知道什么。

SelfAware 包含了五个类别中的 1032 个无法回答的问题和 2337 个可回答的问题。无法回答的问题来源于在线论坛并附有人类注释,可回答的问题来源于 SQuAD、HotpotQA 和 TriviaQA。

一个问题可能因为各种原因而无法回答,例如没有科学共识、对未来的想象、完全主观、可能产生多种回应的哲学原因等。

研究将区分可回答和不可回答的问题视为二元分类任务,并使用 F1 分数或准确率来评估模型的表现,实验表明更大的模型在这项任务上表现得更好。

图片

评估模型对未知知识的认知程度的另一种方式是测量模型输出的不确定性。当一个问题介于已知和未知之间时,模型应表现出正确的置信度。

Kadavath 等人 2022 年的实验表明,在具有可见字母答案选项的多种多选题格式(MMLU、TruthfulQA、QuALITY、LogiQA)中,LLM 在估计答案正确性的概率上表现得很好,这意味着预测的概率与该答案为真的频率一致。

RLHF 微调使模型校准效果较差,但较高的采样温度会带来更好的校准结果。

图片

Lin 等人 2022 年提出了CalibratedMath任务套件。CalibrateMath 是一套以编程方式生成的数学问题,具有不同的难度级别,用以测试模型输出概率的校准程度。

对于每个问题,模型必须提供一个数值答案及其对该答案的置信度。考虑了三种类型的概率:

  • 用文字表述的数字或词(例如 “最低”,“低”,“中等”,“高”,“最高”),如 “置信度:60% / 中等”。
  • 答案 token 的归一化对数概率。注意,微调实验中没有使用这种参数。
  • 在原始答案之后的间接”True/False” 标记的 Logprob。实验侧重于校准在任务难度或内容的分布变化下的泛化程度。每个微调数据点是一个问题、模型的答案(可能是错误的)和校准的置信度。在两种情况下,文字表述的概率都能很好地泛化,而所有设置在乘除任务转换上表现良好。在模型预测置信度方面,Few-shot 比微调模型弱。包含更多示例很有帮助,50-shot 几乎与微调版本一样好。

图片

间接查询

Agrawal 等人 2023 年专门研究了 LLM 生成中出现的幻觉引用案例,包括虚构的书籍、文章和论文标题。他们使用两种基于一致性的方法来检测幻觉,即直接查询与间接查询。这两种方法在 T>0 时多次运行检查,并验证一致性。

图片

直接查询要求模型判断生成的参考资料是否存在,间接查询则要求提供辅助细节,如参考资料的作者是谁

假设是,对于一个幻觉参考资料,多次生成同一作者的一致性要小于直接查询多次回应显示参考资料存在的可能性。

实验表明,间接查询方法效果更好,更大的模型能力更强,且幻觉现象更少

抵抗幻觉的方法

接下来,回顾一组提升 LLM 响应真实性的方法,这些方法包括从外部知识库检索、特殊的采样方法、对齐微调。在这里暂不讨论一些通过神经元编辑来减少幻觉的可解释性方法。

RAG→编辑与归因

RAG(检索增强生成)是一种非常常见的提供基础信息的方法,即检索相关文档,然后利用额外的相关文档作为上下文进行生成。

RARR(Retrofit Attribution using Research and Revision)是 Gao 等人 2022 年提出的一个框架,通过编辑归因使 LLM 能够追溯地支持对外部证据的归因。

给定一个模型生成的文本𝑥,RARR 分两步处理,输出一个修订后的文本 𝑦和一个归因报告𝐴:

**1、**研究阶段:查找相关文档作为证据。

首先使用查询生成模型(通过少样本提示, 𝑥→𝑞1,…,𝑞𝑁 )构建一组搜索查询 𝑞1,…,𝑞𝑁来验证每个句子的各个方面。
运行 Google 搜索,每个查询𝐾=5 个结果𝑞𝑖。
利用预训练的查询 - 文档相关性模型来分配相关性分数,并且每个查询𝑞𝑖仅保留一个最相关的𝐽=1 文档 𝑒𝑖1,…,𝑒𝑖𝐽。

**2、修订阶段:编辑输出以纠正不受证据支持的内容,同时尽可能保留原始内容。**初始化修订后的文本𝑦=𝑥。

根据 (𝑞𝑖,𝑒𝑖𝐽) ,协议模型(通过 few-shot 提示 + CoT, (𝑦,𝑞,𝑒)→0,1 ) 检查证据𝑒𝑖是否与当前修订后的文本不一致。

仅当检测到不一致时,编辑模型(通过少数提示 + CoT, (𝑦,𝑞,𝑒)→ new 𝑦 )输出新版本的𝑦 ,旨在与证据同时最小限度地改变𝑦 。

最后只有有限数量的𝑀=5 证据进入归因报告𝐴。

图片

在评估修订后的文本𝑦时,归因和保留都很重要。

归因使用 AIS(归因于已识别来源)分数来衡量𝑦中有多少可归因于𝐴。可以收集人工注释或使用 NLI 模型来近似自动 AIS 评分。

保留是指𝑦保留𝑥原始文本的程度,以 Previntent×PrevLev 衡量,其中 Previntent 需要人工注释,而 PrevLev 基于字符级 Levenshtein 编辑距离。与两个基线相比,RARR 会带来更好的平衡结果,特别是在保留指标方面。

与使用搜索 + 编辑的 RARR 类似,Mishra 等人 2024 提出的FAVA(Factuality Verification with Augmented Knowledge)也会检索相关文档,然后编辑模型输出以避免幻觉错误。FAVA 模型由一个检索器和一个编辑器组成。

给定提示𝑥和模型输出𝑦,检索最相关的文档:

图片

编辑器生成增强输出:

图片

RARR 不需要训练,但是 FAVA 中的编辑器模型𝑀edit 需要微调。通过更详细地分类不同类型的幻觉错误,可以为编辑模型生成合成训练数据,方法是在模型生成中插入随机错误。

每个示例都是一个三元组 (𝑐,𝑦,𝑦∗) ,其中𝑐是作为黄金上下文的原始维基百科段落,𝑦是带错误的 LM 输出,而𝑦∗是带有错误标签和正确编辑的输出。

图片

He 等人 2022 年提出的RR(Rethinking with retrieval)方法同样依赖于检索相关的外部知识,但不涉及额外的编辑。

RR 的检索不是利用搜索查询生成模型,而是基于分解的 CoT 提示。

给定输入提示𝑄,RR 使用 CoT 提示在温度 > 0 时生成多个推理路径𝑅1,…,𝑅𝑁 ,其中每个𝑅𝑖推理路径包含一个解释𝐸𝑖(即推理部分),然后是预测𝑃𝑖(即实际模型输出)。检索外部知识𝐾1,…,𝐾𝑀来支持每个解释。然后,根据检索到的知识𝐾1,…,𝐾𝑀 的契合程度选择最忠实的答案。

  • 知识检****索:RR 的实验应用稀疏检索 BM25 对维基百科进行搜索,然后通过预训练的 MPNet 模型提供的嵌入余弦相似度进行重新排序。
  • 忠实度评分:每个推理路径的忠实度通过蕴含得分、矛盾得分和 MPNet 相似度的组合来估计。蕴含得分和矛盾得分均由预训练的 NLI 模型提供。

图片

S****elf-RAG(Asai 等人,2024)通过端到端训练一个语言模型,使其学会通过输出任务结果和间歇性的特殊反思标记来反思自身的生成。

研究团队通过提示 GPT-4 创建了一个用于评判模型和生成模型的监督数据集,然后将其蒸馏到一个内部模型中,以降低推理成本。

图片

给定输入提示𝑥,生成的输出𝑦由多个部分(例如,一个段是一个句子)。反思标记总共有四种类型,一种用于检索,三种用于评价:

  • Retrieve:决定是否并行运行检索来获取一组文档;输出值:{yes, no, continue}。
  • IsRel:判断提示𝑥与检索到的文档𝑑是否相关;输出值:{relevant, irrelevant}。
  • IsSup:判断𝑑是否支持输出文本𝑦;输出值:{fully supported, partially supported, no support}。
  • IsUse:判断输出文本𝑦是否对𝑥有用;输出值:{5, 4, 3, 2, 1}。

Self-RAG 一次生成一段𝑦𝑡。根据给定的𝑥和前面的生成𝑦<𝑡 ,模型对 Retrieve token 进行解码:

  • 如果 Retrieve==no,直接生成𝑦𝑡;
  • 如果 Retrieve==yes,模型并行检索多个段落,并使用 IsRel token 检查检索到的文档是否相关。如果相关,生成𝑦𝑡并使用其它评价 token 来评分、排名并选择多个输出中的最佳结果。
动作链

在没有外部检索知识的基础上,可以设计一个利用模型本身进行验证和修订的过程,以减少幻觉。

Dhuliawala 等人 2023 年提出了一种基于动作链进行规划和执行验证的方法,名为Chain-of-Verification(CoVe)。CoVe 包括四个核心步骤:

  • 基线响****应:模型生成一个初始响应草稿,称为 “baseline”。
  • 规划验证:基于这个原始生成,模型设计非模板化的验证问题进行事实核查;可以通过少量示例提示(回答,验证问题)来实现。
  • 执行验证:模型独立回答这些问题。有几种设置变体:

1)联合:与步骤 2 结合,其中 few-shot 示例结构为(响应,验证问题,验证答案);缺点是原始响应在上下文中,模型可能会重复类似的幻觉。

2)两步法:将验证规划和执行步骤分开,如不影响原始响应。

3)分解:分别回答每个验证问题。例如,如果长篇基本生成结果产生多个验证问题,将逐一回答每个问题。

4)分解 + 修订:在分解验证执行后添加一个 “交叉检查” 步骤,根据基线响应和验证问题及答案进行条件限制,检测不一致性。

  • 最终输出:生成最终的、精炼的输出。如果发现任何不一致,则在此步骤中将修改输出。

CoVe 之所以这样设计,是因为使用长篇验证链生成可能会导致重复幻觉,因为初始的幻觉响应仍在上下文中,并且在新生成过程中可以被关注,而单独回答每个验证问题被发现比长篇生成能带来更好的结果

图片

以下是来自 CoVe 实验的一些有趣观察:

  • 指令调整和 CoT 并未减少幻觉。
  • 分解和两步法的 CoVe 提高了性能,并且对不一致性检测的进一步明确推理也有所帮助(“分解 + 修订” 方法)。
  • 简短形式的验证问题比长形式问题,得到的回答更准确。
  • 自由格式的 LLM 生成的验证问题比启发式问题(例如,X 是否回答了问题?)更好,需要开放式生成的问题比 “是 / 否” 问题更好。

此外,Sun 等人 2023 年提出了RECITE的方法,依赖于复述作为中间步骤,以提高模型生成的事实正确性并减少幻觉。

其动机是将 Transformer 的记忆作为信息检索模型来使用。在 RECITE 的复述与回答方案中,首先要求 LLM 复述相关信息,然后生成输出。

具体来说,可以使用 few-shot 的上下文提示来教导模型进行复述,然后基于复述来生成答案。此外,它还可以与自我一致性的集成方法结合,这种方法使用多个样本,并且可以扩展以支持多跳问答。

图片

生成的复述与基于 BM25 的检索模型相当,但两者在使用真实段落时都存在差距。根据研究团队进行的错误分析,大约 7-10% 的问题虽然复述正确,但无法生成正确的答案;大约 12% 的问题复述不正确,但仍然可以正确回答。

抽样方法

Lee 等人 2022 年发现,在 FactualityPrompt 基准测试中,核采样(top-𝑝采样)的表现不如贪婪采样,尽管核采样增加了额外的随机性,实现了更好的多样性和较少的重复。

因此,他们提出了基于假设的事实核采样算法,该假设认为采样的随机性对句子后半部分的事实性的影响大于句子开头。事实核采样旨在动态调整每个句子中采样词汇的概率𝑝。对于一个句子中的第𝑡个 token,有𝑝𝑡=max (𝜔,𝑝⋅𝜆𝑡−1),其中𝜔用于防止采样回退到损害生成质量和多样性的贪婪采样。

图片

Li 等人 2023 年提出Inference-Time Intervention(ITI),通过在每层上对激活进行线性探测,以区分真实与虚假的输出,研究了某些注意力头与事实性是否更相关。

他们发现,对于许多注意力头来说,探测器的表现不比随机选择更好,而有些则表现出很强的性能。在识别出一组在真实性线性探测准确性高的稀疏注意力头后,ITI 在推理时会将 top 𝐾选定的注意力头的激活沿着 “真实” 方向进行调整。

图片

针对事实性的微调

Lee 等人 2022 年提出了两个事实增强训练的想法:

  • 引入 TopicPrefix 以更好地了解事实:在该文档的每个句子前添加主题(即维基百科文档标题)。
  • 将句子完成损失作为训练目标:更新训练损失以便聚焦于句子的后半部分,假设句子的后半部分包含更多的事实知识。实现非常简单,决定一个枢轴点𝑡,并且第𝑡 token 之前的所有 token 都应用零掩码。在他们的实验中,最佳的枢轴点𝑡被选择为 0.5x 句子长度。

Lin 等人 2024 年提出进行关注事实性的 SFT+RLHF 对齐训练,命名为FLAME

  • SFT 阶段(Factuality-aware SFT):目标是生成比模型自身生成更具事实性的训练数据(通过 FActScore 衡量)。
  • RLHF 阶段(Factuality-aware DPO):测试了两种方法,方法 1 表现不佳,方法 2 表现还可以,可能是因为方法 1 试图在没有足够训练的情况下将新知识蒸馏到模型中。

前文也有提到过,有一些证据表明,微调新知识可能会导致幻觉,而 RAG 的监督包含了 LLM 未知的信息。

方法 1:使用 RAG 数据样本作为正样本,原始模型生成作为负样本作为 RM 数据。

方法 2:使用 FActScore 作为事实性的奖励信号。

图片

为了避免在对齐训练期间意外将未知知识蒸馏到模型中,他们建议使用模型生成的响应来构建 SFT/DPO 数据集。

图片

Tian&Mitchell 等人 2024 年提出的Factuality tuning同样依赖于微调语言模型以提高事实性。他们试验了不同的方法来估计每个模型样本中原子声明的真实性,然后运行 DPO。

图片

事实性调整过程:

1、给定提示集的模型完成示例对(例如”Write a bio of Yo-Yo Ma”)

2、根据两种无需人工干涉的方法对其进行真实性标注:

基于参考:检查外部知识库是否支持模型声明,类似于上述基于检索的幻觉评估部分。(a) 提取一系列原子声明;(b) 查找维基百科参考;© 使用一个微调过的小型 NLI 模型来检查参考文本是否支持原子声明。

不基于参考的:使用模型自身的置信度作为其真实性的象征,类似于间接查询方法。(a) 将每个声明转换成相应的问题 / 需要仔细改写以确保问题明确;使用 few-shot 提示;(b) 从模型中多次采样以回答该问题;© 计算聚合分数 / 使用字符串匹配或询问 GPT 判断两个答案是否语义等价。

3、通过从模型生成多个样本并根据真实性分数分配偏好,构建一个训练数据集。然后在这个数据集上使用 DPO 对模型进行微调。

图片

针对归因的微调

在生成依赖于搜索结果的模型输出时,赋予归因是减少幻觉的一个好方法。有一系列工作旨在训练 LLM 更好地利用检索到的内容并分配高质量的归因。

Nakano 等人 2022 年提出WebGPT,将用于文档检索的 Web 搜索与微调的 GPT 模型相结合,旨在回答长篇问题以减少幻觉并提高事实精度。

该模型与基于文本的 Web 浏览器中的互联网搜索进行交互,并学会引用网页来回答问题。当模型正在浏览时,它可以采取的一种行动是引用当前页面的摘录。执行此操作时,会记录页面标题、域名和摘录,以便稍后作为参考使用。WebGPT 的核心是使用参考资料帮助人们判断事实正确性

该模型首先在人类使用 Web 浏览环境回答问题的演示上进行监督微调,以进行行为克隆。

收集同一问题的两个模型生成的答案(每个答案都有自己的参考集)之间的比较数据,其中答案会根据其事实精度、连贯性和整体有用性进行评判。奖励模型用于 RL 训练和 best-of-n 拒绝采样。相比之下,RL 效果有限,并且当使用拒绝抽样时,效果更有限。

图片

Menick 等人 2022 年提出GopherCite,在使用搜索引擎创建支持材料和教模型提供参考资料方面与 WebGPT 非常相似。两者都对引导进行监督微调,并且都应用 RLHF 训练。

与依赖人类演示进行行为克隆的 WebGPT 不同的是,GopherCite通过 few-shot 提示生成演示,并且每次生成都使用相关文档的上下文填充,然后使用奖励模型来评分哪些是最好的。

图片

为避免低质量响应的另一个技巧将模型配置为拒绝使用预设答案 “I don’t know” 进行回答,该答案由全局 RM 阈值决定,称为选择性预测(selective prediction)。

RL 实证结果与 WebGPT 类似,即 RL 只带来有限的改进,或者当与拒绝抽样结合使用时不带来改进。

图片

翁荔是谁?

翁荔是 OpenAI 华人科学家、ChatGPT 的贡献者之一,北大毕业。

图片

她是 OpenAI 人工智能应用研究的负责人,2018 年加入 OpenAI,在 GPT-4 项目中主要参与预训练、强化学习 & 对齐、模型安全等方面的工作。

在 OpenAI 去年底成立的安全顾问团队中,她领导安全系统团队(Safety Systems),解决减少现有模型如 ChatGPT 滥用等问题。


via:

  • OpenAI 翁荔提出大模型「外在幻觉」:万字 blog 详解抵抗办法、产幻原因和检测方式 * 西风 发自 凹非寺 量子位 | 公众号 QbitAI 2024 年 07 月 13 日 11:40 北京 *

    https://mp.weixin.qq.com/s/1RF_TEDHg1HoIr00ubreeA


四个角度谈多模态大模型产生幻觉的原因

图片

https://github.com/showlab/Awesome-MLLM-Hallucination/blob/main/assets/tax.png

数据角度

图片

数据量

深度学习模型,尤其是大型多模态语言模型(MLLMs),对数据的需求量非常大。数据的数量在构建健壮且可靠的 MLLMs 时起着重要作用。目前,图像 - 文本对数据集和视觉问答(Visual QA)数据被用于训练 MLLMs。尽管这些数据集通常比计算机视觉中的典型数据集要大,但它们在数量上仍远少于用于训练大型语言模型(LLMs)的纯文本数据。数据不足可能会导致跨模态对齐出现问题,从而导致幻觉现象(在 AMBER 和 LLava-RLHF)中提到的。

数据质量

-・数据噪音

训练多模态语言模型(MLLMs)涉及两个阶段:预训练阶段利用从网络抓取的图像 - 文本对,其中包含不准确、错位或损坏的数据样本。噪声数据会限制多模态特征对齐,这是 MLLMs 的基础。至于指令调优数据,流行的方法,如 LLaVA,利用先进的 GPT-4 模型生成指令。然而,ChatGPT 是一个无法解释视觉内容的语言模型,存在噪声数据的风险。此外,语言模型本身也存在幻觉问题,进一步增加了风险。LLaVA-1.5 将人工标注的问答数据加入到指令遵循的数据中,有一定的改进,揭示了噪声数据的影响。

-・数据缺乏多样性

最近研究表明,数据的多样性也起着至关重要的作用。在两个训练阶段使用的数据中,指令调优数据更有可能出现这个问题,因为它通常数量相对较少。一个突出的特点是,大多数指令微调数据样本都由关于图像内容的对话组成。我们将这种类型的数据视为正面引导,因为它始终忠实地反映了图像内容。相比之下,负面微调数据和拒绝回答响应在数据集中很少见。在给定这样的训练数据后,最近研究观察到的一个潜在缺陷是,当前模型倾向于对向模型提出的任何指令都回答 “是”,即使一个正确的答案应该是 “否”,从而导致了幻觉。这一现象表明了数据多样性的影响。

-・数据缺乏详细描述

文本描述的详细程度对此问题的影响仍然是一个未解之谜。预训练数据中的文本,例如 LAION,通常描述突出对象的整体内容。而指令调优阶段的文本,例如 LLaVA-150k,则包含更详细的描述。LLaVA-150k 数据集是由基于视觉模型识别的对象生成的。最近的一项工作认为,在训练数据中,通常缺乏与对象位置、属性和非突出对象相关的详细描述。这一特性导致了不完整的跨模态对齐,并剥夺了模型的基于实体的能力。然而,另一项工作假设指导调优数据中的文本描述包含了太多的细节,超出了 MLLMs 的感知限制。当使用这样详细的数据进行训练时,为了适应地面真实 Caption 的细节水平和长度分布,模型可能会冒着表达它无法从图像中辨别的细节的风险,从而表现出幻觉。训练数据的详细描述水平仍然是一个未解之谜。

统计 bias

统计偏差。神经网络,尤其是大语言模型,都会倾向于对训练数据进行记忆,训练数据中物体的分布对模型有显著影响。频繁出现的物体和物体共现是两种突出的统计偏差类型。例如:

频繁出现的物体:“人” 可能是训练数据中最频繁出现的物体之一。在推理过程中,即使给定的图像中不包含人,模型仍然倾向于预测人的存在。

物体共现: 指的是模型会记住哪两种物体通常 “一起出现” 的现象。例如,给定一张带有冰箱的厨房图片,当被问及是否有微波炉时,大型语言模型倾向于回答 “是”,因为冰箱和微波炉在厨房场景中经常一起出现。大多数数据集都存在偏差。增加数据规模可能会减轻这种影响,但由于现实世界的长尾分布,无法完全解决这个问题。

模型角度

多模态大模型结构是由多个模块构成的,通常包括预训练过的视觉模型、预训练过的语言模型、还有将视觉映射为语言模型输入的对齐模型,由于这些模型是连接在一起的,而不是从头开始进行端到端的训练,每个模块的错误可能会累积。每个模块有问题的输出都会导致幻觉。

视觉模型

幻觉的一个主要原因是一个弱视觉模型,这可能导致视觉概念的误分类或误解释。即使是最强大的视觉模型,在编码过程中也可能经历信息丢失。弱视觉模型意味着弱感知,这从根本上削弱了多模态理解。

语言模型

语言模型具有一定的先验知识。多模态大型语言模型(MLLMs)的现代架构是不平衡的。通常,语言模型比视觉模型大得多且功能更强,导致倾向于优先考虑基于语言的信息。一个典型的现象是,包含在语言模型中的知识,也称为参数化知识,可能会覆盖视觉内容。例如,给定一张显示红色香蕉的图像,这在现实世界中是反直觉的,但多模态大型语言模型可能仍然回应 “黄色香蕉”,因为 “香蕉是黄色的” 是大型语言模型中根深蒂固的知识。这种语言 / 知识先验使得模型忽视了视觉内容,并以幻觉的形式回应。

跨模态对齐模型

对齐模型在多模态大型语言模型(MLLMs)中扮演着至关重要的角色,因为它充当了两种模态之间的桥梁。一个弱对齐模型很容易引起幻觉。一个潜在原因是数据,如前文所述。除此之外,模型本身和训练损失设计也很重要。最近的工作认为,类似于 LLaVA 的线性投影方法(MLP)保留了大部分信息,但缺乏对 MLP 后的特征的监督。有可视化显示,投影层之后的特征仍然与语言嵌入有显著差异。这种分布差距在跨模态交互中造成困扰,导致产生幻觉。另一方面,类似于 Q-former 的架构对提取的视觉特征进行了多样化的监督,将其与语言嵌入空间对齐。然而,使用可学习的 Query 不可避免地会导致细粒度视觉信息的丢失。

训练角度

多模态大型语言模型(MLLMs)的训练目标与大型语言模型(LLMs)基本相同,即自动预测下一个 token 计算损失。这种损失函数简单直接但效果显著,易于扩展,并在语言建模中展现出良好的性能。然而,一些 MLLMs 领域的研究表明,由于复杂的空间结构,下一个 token 预测损失可能不适合学习视觉内容。此外,该损失函数在 token 级别进行优化,但在序列级别缺乏监督(?)。

另一个观点是,与训练 LLMs 不同,MLLMs 的训练过程中缺少强化学习人类反馈(RLHF)阶段,这可能成为产生幻觉的潜在原因。

推理角度

关于推理(生成),一些工作也指出了自回归生成中可能存在的问题。在生成过程中,随着序列长度的增加,自注意力将更多地集中在先前生成的文本标记上,即对视觉内容的注意力被稀释了。通过可视化生成过程中的注意力图,可以观察到生成的内容更多地关注先前的特殊标记,如标点符号,而不是视觉内容标记。这种 “失去注意力” 的问题也会导致模型的输出响应与视觉内容不相关。

来源 | 青稞 AI


via:


官方演示大翻车,OpenAI 惨遭打脸

就在网友们兴致勃勃地试用时,《大西洋月刊》却站出来泼了一盆冷水 ——SearchGPT 在官方 demo 中有明显的搜索结果错误。

用户给出的搜索问题是「8 月在北卡罗来纳 Boone 举办的音乐节」。

图片

这个问题其实很难体现 SearchGPT 相对于传统搜索引擎的优势。同样的问题如果抛给谷歌搜索,也能给出相差无几的结果。

比如 SearchGPT 放在首行的「阿巴拉契亚夏季节」(An Appalachian Summer Festival),也同样是谷歌搜索的第二位结果。

图片

但尴尬的是,标题下方的 AI 摘要把一个关键信息弄错了 —— 经主办方确认,音乐节举办日期为 6 月 29 日~7 月 27 日。

如果你按照 SearchGPT 给出的信息去买票,将一无所获 ——7 月 29 日~8 月 16 日恰好是售票处正式关闭的时段。

图片

OpenAI 发言人 Kayla Wood 已经向《大西洋月刊》承认了这个错误,并表示「这仅是初始的原型,我们将不断改进。」

这个错误让人不禁想起 Bard 曾经造成的惨剧。

2023 年 2 月,谷歌推出了这个聊天机器人产品以对抗 ChatGPT,但首次亮相就出现了事实性错误,导致 Alphabet 股价当天暴跌 9%,市值瞬间蒸发 1000 亿美元。

图片

Bard 称 James Webb 太空望远镜拍摄了系外行星的第一张照片,但实际上这个功绩属于欧洲南部天文台的 VLT

但好在,OpenAI 没有股价可跌,而且仅开放内测的做法也是相当谨慎。毕竟有谷歌的前车之鉴,可以预料到,LLM 这种错误几乎是无法避免的。

即使 OpenAI 能够找到方法大幅减少 SearchGPT 的幻觉,但面对庞大的访问量也是「杯水车薪」。

图片

假设幻觉率仅为 1%(这个比率很难达到),按照谷歌的规模,也会导致每天产生数千万个错误答案。

更何况,我们目前还没有发现足够可靠且有效的方法,来消除 LLM 的废话和幻觉。

而且,Andrej Karpathy 大佬曾经在推特上表达过这样的观点:「幻觉并不是 bug,而是 LLM 最大的特点。」

图片

Karpathy 将 LLM 比喻为「梦想机器」:我们用 prompt 引导模型「做梦」,再加上对训练文档的模糊记忆,就得到了生成结果。

虽然大多数时候生成结果是有用的,但既然是「梦境」就有可能失控。当 LLM 做梦进入有事实错误的领域时,我们就会给它贴上「幻觉」的标签。

这看起来是个 bug,但 LLM 只是做了它一直在做的事情。

这种机制和传统的搜索引擎完全不同。后者接收提示后仅仅是逐字返回数据库中最相似的文档,因此你可以说它有「创造性问题」,因为搜索引擎永远不可能创造新的回应。

根据 Karpathy 的说法,我们就很难指望由当前 LLM 驱动的 AI 搜索能生成 100% 真实准确的结果。

那么这场搜索引擎的变革会怎样展开?LLM 的「梦境创意」和传统搜索引擎的真实可靠,究竟是共存下去,还是会「你死我亡」?

图片

参考资料:

https://x.com/ai_for_success/status/1817199693275050018

https://www.theatlantic.com/technology/archive/2024/07/searc<hgpt-openai-error/679248/>

https://x.com/testingcatalog/status/1816778176141336757

https://www.testingcatalog.com/early-access-to-searchgpt-openais-ai-powered-search-feature/


via:

节选自:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值