LLMs的局限性以及RAG如何弥补它们

本文链接：https://blog.csdn.net/python12345_/article/details/141595759

最近，诸如检索增强生成（RAG）和大型语言模型（LLMs）这样的术语引起了很多关注，这并不奇怪。人类与机器交流的演变似乎已经完全正常化了。然而，仅仅使用像GPT-3、GPT-4、Llama 2和Mistral-7B这样的语言模型进行"对话"并不是这种情况的特殊之处。特殊的是这些机器——在这种情况下是LLMs——理解你。或者它们真的理解吗？

尝试一下：

选择一个你喜欢的语言模型，让它解释最新的选举民意调查结果在联邦选举趋势中的影响，并且你希望答案中包含正面和负面的影响。

它起作用了吗？

在这篇博客文章中，我们将向你展示如何获得类似问题可靠答案的方法。

LLMs在回答问题方面的限制理解人类用户查询的上下文不是一项简单的技巧，而是基于外部检索系统（从存储的数据中恢复特定信息）和大型语言模型（LLMs）的组合的高度复杂的技术方法。

LLMs可以理解和处理哪些信息维度，以及哪些维度不能？

我们将在本博客文章中更详细地探讨LLMs无法回答问题的情况。我们还将向您展示如何将实时信息添加到大型语言模型中。

LLMs的具体限制语言模型提供了生产力的提升，并帮助我们完成各种任务。但正如之前提到的，要注意即使是基于AI的LLMs也有其局限性。当要求以下信息时，这些限制尤其明显：

及时或当前的信息
实时信息
私人信息
特定领域的知识
训练语料库中未充分代表的知识
法律方面和
语言学方面

例如，向ChatGPT询问德国当前的通货膨胀率。你会得到类似于上述测试的答案，像这样：

“很抱歉造成困惑，但作为一个认知智能模型，我没有实时数据或浏览功能。我的回答基于截至2021年9月可用的信息。因此，我无法告诉您德国当前的通货膨胀率。”

这个限制带来了一个主要问题。像许多其他LLMs一样，ChatGPT无法提供及时和与上下文相关的信息，而这些信息对于做出明智的决策可能是至关重要的。

这个原因导致了LLM的限制LLMs之所以"停留在时间上"，无法跟上快速发展的世界，是因为：

ChatGPT的训练和信息数据有一个所谓的"截止点"。对于这个语言模型来说，这个时间点或截止日期被设定为2021年9月。因此，如果你向ChatGPT询问在这个日期之后发生的事件或发展，你将得到以下结果之一：

听起来令人信服但完全错误的信息，这被称为"幻觉"；带有隐含建议的客观性回应，例如：“我的数据只延伸到2021年9月，我无法获取该日期之后发生的事件的信息。如果您需要关于2021年9月之后的事件的详细信息，我建议您访问最新的新闻来源或搜索引擎来跟踪最新的发展情况。”

RAG作为解决LLM限制问题的一种方案这正是检索增强生成（RAG）发挥作用的地方。这种方法通过整合外部检索机制，填补了LLMs的知识空白，并使其能够提供与上下文准确和最新的信息。

在接下来的部分中，我们将更详细地解释RAG的概念，并探讨RAG如何扩展LLMs的边界。

什么是检索增强生成？

检索增强生成（RAG）是人工智能（KI）和自然语言处理中的一种方法，旨在通过整合外部检索系统来提高LLMs的性能。该技术可以从外部来源（如组织语料库或文档数据库）检索数据，并用于丰富用于条件化语言模型（LLM）的数据。提示。

检索增强生成是如何工作的？RAG利用了GPT-3或GPT-4等转换器的力量，与外部检索或搜索机制相结合。它不仅仅依赖于模型的内部知识，而是向一个外部记录（通常是文档的语料库）请求检索相关信息。然后使用检索到的数据生成上下文响应。

RAG与微调的区别RAG使模型能够从外部源检索信息，以更好地理解用户查询的上下文并生成更准确的响应。它通过连接到知识库或其他信息源扩展了LLM的能力。

微调是一种将预先训练好的基模型（如大型语言模型）适应特定任务或领域的过程。这是通过对模型进行有限的任务特定训练数据进一步训练来实现的。在微调过程中，模型学习如何最好地专注于特定任务或领域，并优化其在该特定应用中的能力。

RAG和微调之间的主要区别在于它们的操作和目的RAG侧重于通过整合外部信息来改进自然语言处理，使模型能够更好地理解查询的上下文并生成更准确的响应。另一方面，微调旨在通过使用有限的训练数据集专门适应预训练的基础模型以适应特定的任务或领域。

这两种方法都有效，但它们有不同的应用领域和目标。RAG通过整合外部信息扩展了LLM的能力，而微调旨在针对特定任务或领域进行定制。

RAG比较 - 优势、劣势和替代方案RAG提供了一种与传统方法（如预训练或微调基础模型）相比具有成本效益和高效率的替代方案。RAG实质上使大型语言模型能够在响应特定提示时直接访问特定数据。为了展示RAG和替代方案之间的差异，请考虑以下图表。

具体而言，雷达图比较了三种不同方法：

预训练LLM，预训练+微调LLM和预训练+RAG LLM。

这个雷达图是多维数据的图形表示，其中每种方法根据图表上显示为轴的标准进行评估。这些标准包括成本、复杂性、特定领域的知识、时效性、可解释性和避免幻觉。每个方法在图中都表示为一个多边形，多边形的顶点对应于该方法的这些标准的值。

例如：

预训练LLM方法在"成本"、“复杂性”、"特定领域知识"和"幻觉避免"方面具有相对较低的值，但在"时效性"和"可解释性"方面具有更高的值。

另一方面，“预训练+微调LLM"方法在"成本”、“复杂性”、"特定领域知识"和"幻觉避免"方面具有更高的值，但在"时效性"和"可解释性"方面具有较低的值。最后，“预训练+RAG LLM"方法具有独特的模式，在"最新信息”、"可解释性"和"特定领域知识"方面具有高值。

预训练+RAG LLM方法的特点是具备特定领域的知识、最新的信息、可解释性和避免幻觉。这可能是由于RAG方法允许模型使用图形结构来解释信息，从而提高其理解能力、防止幻觉，并在特定领域中提供更透明和准确的答案。

RAG "如何"进行上下文和主题响应生成。检索增强生成（RAG）过程包括以下3个步骤：

从特定领域数据创建向量数据库：实施RAG的第一步是从您的特定领域的专有数据创建一个向量数据库。该数据库作为RAG提供与上下文相关的答案的知识来源。要创建这个向量数据库，请执行以下步骤：向量化（嵌入）：为了使您的特定领域的数据可供RAG使用，您需要将其转换为数学向量。这种转换过程是通过将您的数据通过嵌入模型运行来实现的，这是一种特殊类型的大型语言模型（LLM）。这些嵌入模型能够将各种类型的数据，包括文本、图像、视频或音频，转换为数值数组或数值组。重要的是，这些数值反映了输入文本的含义，就像另一个人理解口头表达的文本的本质一样。创建向量数据库：一旦您获得了表示您的特定领域的数据的向量，您就可以创建一个向量数据库。该数据库作为以向量形式编码的语义丰富的信息的存储库。在这个数据库中，RAG根据存储数据的数值表示搜索语义相似的元素。以下图表说明了如何从您的特定领域的专有数据创建向量数据库。要创建您的向量数据库，您可以通过将其通过嵌入模型运行来将数据转换为向量。在下面的示例中，我们将Konfuzio文档（Konfuzio文档）转换为向量，其中包含有关Konfuzio的最新信息。数据可以由文本、图像、视频或音频组成。

将检索到的专业知识（上下文）集成到LLM中现在您已经建立了一个具有特定领域知识的向量数据库，下一步是将该知识集成到LLM中。这种集成是通过所谓的“上下文窗口”来完成的。

可以将上下文窗口视为LLM在给定时间的视野：

当RAG运行时，就像从特定领域的数据库中提取关键信息并将其呈现给LLM一样。

这个上下文窗口允许LLM访问和整合重要的数据。这确保了其响应不仅连贯，而且与上下文正确相关。

通过将特定领域的知识嵌入到LLM的上下文窗口中，RAG提高了生成答案的质量。RAG使LLM能够利用存储在向量数据库中的大量数据。这使得其响应更加丰富和与用户的查询相关。

在下面的图表中，我们以“Konfuzio文档”为例说明了RAG的工作原理。

结论大型语言模型（LLMs）越来越多地融入我们的日常生活中，无疑带来了许多好处，但也存在一定的局限性。挑战在于像GPT-3、GPT-4、Llama 2和Mistral-7B这样的LLMs在提供及时的上下文信息和特定领域的知识方面存在困难。这构成了一个重要的障碍，尤其是在需要准确和相关响应的情况下。

检索增强生成（RAG）在这方面被证明是一个有前景的解决方案。RAG实现了外部检索系统与大型语言模型的集成，使这些模型能够访问广泛的知识库和最新的信息。这使得它们能够更好地理解用户定义的查询并提供更精确、上下文相关的答案。

那么为什么选择使用RAG而不是依赖其他方法呢？

RAG能够提供实时的信息和最新的知识，这在快速发展的领域和做出明智决策时尤为重要。RAG允许将特定领域的知识整合到答案生成中。当需要专业知识时，这是至关重要的。与一些替代方法不同，RAG提供了一种更透明和可追溯的方法来回答问题，因为它基于现有的数据和事实。RAG通过访问外部可靠的来源，最小化了虚假或捏造信息的可能性。总之，检索增强生成填补了LLMs能力上的空白，并能够对复杂问题提供可靠的答案。这使得它在机器智能通信和支持的广泛应用中成为一个有前景的方法。

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。