https://thenewstack.io/how-to-reduce-the-hallucinations-from-large-language-models/
对于大型语言模型,幻觉一词是指模型产生看似正确但实际上错误的文本的倾向。以下是如何减少幻觉。以下是如何在您自己的提示中避免它们。
在本系列的前一部分中,我们已经看到了从大型语言模型中提取预期结果的各种类型的提示。在本文中,我们将探讨减少大型语言模型 (LLM) 输出中的幻觉的技术。
What is Hallucination in LLM?(大模型的幻觉是什么?)
在大型语言模型的世界中,术语“幻觉”是指模型生成看似正确但实际上错误或不基于给定输入的文本的倾向。例如,如果你向语言模型询问一个关于从未发生过的历史事件的问题,它仍然可以生成一个看似合理的响应,即使它完全是发明的。这些来自LLM的虚构回答被称为幻觉。
考虑向大型语言模型提供以下提示:
“描述一下阿道夫·希特勒登月的影响。”
德国政治家希特勒并没有参与登月,这是事实。这些事件发生在 1969 年,即希特勒去世多年后。然而,法学硕士可以假设创造一个场景,希特勒通过幻觉与登月联系起来。
“1925 年希特勒登月标志着全球政治和技术的重大转变。这位德国政治家成功地将人类送上月球,展示了其科学实力,并确立了其在 20 世纪太空竞赛中的主导地位。”
Why Do LLMs Hallucinate?(为什么大模型产生幻觉)
LLM由于多种原因产生幻觉。这些模型是在庞大且多样化的数据集上进行训练的,这些数据集可能不完整、矛盾,甚至包含错误信息,这极大地影响了LLM的反应。LLM仅依赖于他们的训练数据,而无法获取外部的现实世界知识。因此,他们的输出可能包含不相关或未询问的细节。
此外,过度拟合,即LLM与其训练数据过于紧密地结合在一起,难以生成原始文本,这是导致幻觉的另一个重要因素。
有时,如果提示含糊不清或缺乏具体细节,LLM可能只是根据学到的模式进行猜测,这可能会导致捏造答案。
同样重要的是要了解LLM没有能力进行事实核查。他们根据模式而不是任何道德或事实判断来产生反应。
Techniques to Reduce Hallucinations in LLMs (消除LLM幻觉的技术)
有多种技术可以确保LLM回复事实信息。让我们逐一看看。
One-shot Prompts
一次性提示是指指导LLM的一种方式,其中为模型提供一个示例或说明,并期望模型能够根据该提示了解要做什么。
让我们考虑一个简单的例子。假设我们希望模型将英语文本翻译成法语。一次性提示可能如下所示:
将以下英文文本翻译成西班牙语:“你好,你好吗?”
在这里,模型收到一条指令(“将以下英语文本翻译成西班牙语:”)和一条要应用该指令的文本(“你好,你好吗?”)。根据这一指令,期望能够正确理解并执行任务。
这种提示对于LLM来说非常有效,因为LLM已经在不同的数据集上接受过训练,并且通常可以从单个示例中很好地概括。
以下是更多一次性提示示例,您可以尝试使用 ChatGPT 等模型:
写一首关于美丽的日落的诗。
写一首关于失去的爱情的歌。
写一个关于机器人爱上人类的短篇故事。
当您希望LLM产生创意输出时,一次性提示非常有效。他们在提示中描述了特定的任务。
Few-shot Prompts
少样本学习是一种指导LLM的方法,其中模型会给出多个示例,并期望模型能够根据这些示例理解任务。这种方法通常用于推动模型理解预期内容的上下文和格式。
通过在提示中提供几个示例,我们为LLM提供了足够的上下文来推导模式。一旦LLM分析了提示并理解了模式,它就会继续生成类似的内容。
当我们希望模型继续一个数字系列时,几次提示可能如下所示:
示例1:
输入:2、4、6、8、
输出:10、12、14
示例2:
输入:5、10、15、20、
输出:25、30、35
继续该系列:
输入:3、6、9、12、
LLM 根据其分析的模式响应以下输出:
鉴于所提供示例中的模式,其中每个序列增加一个常量值,您提供的序列每次增加 3。继续该系列,下一个值将是:
输出:15、18、21
尝试使用您最喜欢的 LLM 执行以下提示,以查看实际的几次提示:
示例1:
输入:“这种动物以其驼峰和在沙漠中生存的能力而闻名。”
输出:“骆驼”
示例2:
输入:“这种动物是一种家养宠物,以发出呼噜声和追逐老鼠而闻名。”
输出:“猫”
从描述中识别动物:
输入:“这是一种大型动物,有长脖子和长腿,以其奔跑速度快而闻名。”
Context Injection
上下文注入是一种用于通过向大型语言模型 (LLM) 提供补充提示的附加信息来提高其性能的技术。这可以通过向LLM提供与当前任务相关的附加文本、代码或其他相关数据来完成。
上下文注入涉及将附加信息嵌入到提示中,为法学硕士提供他们可能需要做出适当响应的知识。缺乏背景是LLM产生幻觉的关键原因。
例如,如果LLM用于生成文本,则可以为其提供风格或流派相似的附加文本。这将有助于LLM生成更准确和相关的文本。
当谷歌的巴德被问及 2023 年印度超级联赛 (IPL) 的冠军时,它的回答如下图所示,这实际上是不正确的。
然而,在根据这篇新闻文章提供一些上下文后,它返回了正确的答案。
经过为期两个月、涉及 10 支球队的 74 场比赛,金奈超级国王队 (Chennai Super Kings) 第五次夺得 2023 年印度超级联赛 (IPL) 冠军,这使得 MS Dhoni 的球队与同样获胜的孟买印第安人队 (Mumbai Indians) 持平。标题五次。
谁赢得了 2023 年 IPL?
Grounding and Prompt Augmentation
从上面讨论的技术可以清楚地看出,提示需要有来自LLM的上下文和补充内容才能正确回答。
落地和快速增强是组织可能需要的两种先进技术,以充分利用LLM。他们不仅仅通过查询文档和数据库等外部源来动态生成上下文来手工制作提示。
接地确保底层模型不仅使用训练它所依据的数据,而且还能够访问外部数据源以提供额外的上下文。
及时增强涉及扩展输入,为LLM提供更具描述性和澄清性的细节,从而生成准确且高度相关的输出。例如,在消费者网站中嵌入聊天机器人的应用程序可以实现提示增强,以通过与其产品或服务相关的描述和上下文来增强输入。这对用户来说可能并不明显,但通过聊天机器人发送的简单查询会在幕后增强为描述性提示。
在本系列的下一部分中,我们将仔细研究接地和提示增强技术。敬请关注。