【AI大模型】HyDE 如何改进了传统的 RAG 方法？

最新推荐文章于 2025-04-17 14:00:00 发布

LLM.

最新推荐文章于 2025-04-17 14:00:00 发布

阅读量1.1k

点赞数 21

文章标签：人工智能 LLM 自然语言处理 RAG langchain AI大模型程序员

本文链接：https://blog.csdn.net/2301_81888214/article/details/144290828

版权

HyDE的方法就是让AI先自己猜一个答案，然后用这个猜测去寻找相关的真实信息，最后结合起来，给出一个更准确、更有参考依据的回答。

一、什么是RAG？

RAG（Retrieval-Augmented Generation）是指"检索增强生成"。

这是一种让AI模型在回答问题时，不仅依赖自身的知识，还从一个数据库（比如文档库、知识库）中检索相关信息来辅助回答的方法。

二、传统RAG的方法存在什么问题？

传统的RAG在检索阶段可能会遇到这样的问题：

问题的表述和答案的表述可能并不相似。

举个例子：

你的问题是：“什么是机器学习？”
但是在数据库中，可能有一段话是：“机器学习是一种让计算机从数据中学习的方法。”

当我们用问题去匹配数据库时，因为问题和答案的表述方式不同，检索系统可能找不到最相关的内容，甚至可能找到一些不相关但表述相似的内容，比如：“什么是人工智能？”

三、HyDE是如何解决这个问题的？

HyDE（Hypothetical Document Embeddings，假设性文档嵌入）的方法是：

步骤1：生成一个假想的答案

首先，让AI模型根据你的问题，自己生成一个可能的答案。这个答案不一定完全正确，甚至可能有错误。

步骤2：将假想答案转换为向量

然后，将这个假想答案进行嵌入，即转换成向量形式。

步骤3：检索相关的真实内容

接下来，用这个假想答案的向量去查询数据库，寻找与之最相似的内容。

步骤4：生成最终答案

最后，将假想答案、检索到的真实内容和原始问题一起输入到AI模型中，生成一个更加准确的回答。

四、为什么HyDE的方法更有效？

更好的匹配：

假想答案的语言表述和真实答案更接近，所以在向量空间中，它更容易匹配到相关的内容。

过滤错误信息：

虽然假想答案可能有错误，但在嵌入和检索过程中，模型会过滤掉这些错误，关注于匹配真实的、有用的信息。

五、HyDE的优缺点

优点：

提高了检索到相关信息的概率，从而提高了最终答案的质量。

缺点：

需要额外的计算步骤（生成假想答案和嵌入），可能会增加响应时间和计算成本。

六、示例

HyDE方法通过生成一个包含关键信息的假想答案，改善检索过程，最终提供更准确和有用的回答。

例子1: HyDE方法如何提高检索和回答的效果

场景：

假设我们有一个大型的知识库，里面包含了大量关于历史事件的文档。其中有一段内容是：

“拿破仑·波拿巴是法国著名的军事领袖和皇帝，他在滑铁卢战役中被击败，标志着他统治的结束。”

用户的提问：

“哪个法国领导人在一场著名的战役中失败，结束了他的统治？”

传统RAG方法的问题：

检索过程：传统的RAG方法会将用户的问题进行嵌入，得到一个向量表示，然后在向量数据库中寻找与之相似的文档。
潜在问题：由于用户的问题没有直接提到"拿破仑"或"滑铁卢战役"，而是用了描述性的语言，嵌入向量可能无法与包含这些关键词的文档高度匹配。
结果：检索系统可能返回一些与法国领导人或战役有关但不直接相关的文档，无法提供准确的答案。

HyDE方法的应用：

步骤1：生成假想答案

我们使用一个大型语言模型（LLM）根据用户的问题生成一个假想的答案：

“可能是拿破仑在滑铁卢战役中失败，结束了他的统治。”

步骤2：嵌入假想答案

将这个假想答案进行嵌入，得到一个新的向量表示。

由于假想答案包含了"拿破仑"和"滑铁卢战役"等关键信息，嵌入向量会更接近相关文档的向量。

步骤3：检索相关文档

使用假想答案的嵌入向量在数据库中进行检索。

检索系统更容易找到包含相关信息的文档，例如之前提到的关于拿破仑的那段内容。

步骤4：生成最终答案

将原始问题、假想答案和检索到的相关文档一起输入到LLM中。

LLM综合这些信息，生成一个准确且详细的回答：

“拿破仑·波拿巴是你提到的法国领导人。
他在1815年的滑铁卢战役中被击败，这场失败结束了他的统治。”

为什么HyDE方法更有效？

桥接语义差异：假想答案使用了更直接、更明确的语言，包含了关键的实体和事件名称，使得嵌入向量更容易匹配到相关文档。
提高检索准确性：通过假想答案的嵌入，检索系统能够找到最相关的内容，而不是被问题表述方式的差异所影响。
增强最终回答： LLM结合了用户的问题、假想答案和高相关性的文档，生成了一个全面且准确的回答。

对比传统方法：

传统RAG可能的回答：

“抱歉，我无法找到相关的信息。”

或

“可能是某个法国领导人在某次战役中失败了。”

使用HyDE方法的回答：

“拿破仑·波拿巴在滑铁卢战役中失败，这场失败结束了他的统治。”

它有效地解决了用户问题与文档内容在表述方式上的差异，提高了检索和回答的质量。

例子2: 当生成的假想答案有错误时

场景：

假设我们有一个大型的知识库，包含了大量关于科学发现和著名科学家的文档。

用户的提问：

“谁发现了相对论？”

步骤1：生成假想答案（可能错误）

使用大型语言模型（LLM）根据用户的问题生成一个假想的答案。

假想答案（错误的）：

“尼古拉·特斯拉发现了相对论。”

这个答案是错误的，因为实际上是阿尔伯特·爱因斯坦提出了相对论。

步骤2：嵌入假想答案

将错误的假想答案进行嵌入，得到一个向量表示。

虽然答案错误，但其中包含了关键的实体名称：“尼古拉·特斯拉"和"相对论”。

步骤3：检索相关文档

使用假想答案的嵌入向量在数据库中进行检索。

检索系统会寻找与"尼古拉·特斯拉"和"相对论"相关的文档。

可能的检索结果：

关于尼古拉·特斯拉的生平和贡献的文档。
关于阿尔伯特·爱因斯坦和相对论的文档。
讨论特斯拉与爱因斯坦之间关系的文档。

步骤4：生成最终答案

将原始问题、假想答案和检索到的相关文档一起输入到LLM中。

LLM综合这些信息，注意到假想答案中的矛盾和检索到的正确信息，生成一个准确的回答。

最终答案：

“阿尔伯特·爱因斯坦发现了相对论，而尼古拉·特斯拉以他的电气工程和发明闻名。”

解析

纠正错误信息：虽然假想答案错误地将相对论归功于特斯拉，但检索系统找到了关于爱因斯坦和相对论的文档。
LLM的角色： LLM在综合信息时，能够识别出假想答案与检索到的文档之间的矛盾，进而纠正错误。
提供准确答案：最终，模型提供了正确的答案，并且可能还会补充一些相关信息以澄清误解。

第一步生成错误时，为什么HyDE方法仍然有效？

丰富的上下文信息：即使假想答案有错误，它仍然提供了丰富的上下文（例如，涉及的主题和人物），有助于检索相关文档。
矛盾的识别和纠正： LLM在处理输入时，会尝试协调假想答案和检索到的文档。如果发现矛盾，模型倾向于依据更可靠的检索内容。
避免错误传播：假想答案的错误不会直接传播到最终答案中，因为检索和综合过程起到了校正的作用。

3、再举一个当生成的假想答案有错误例子

用户的提问：

“月球是由什么组成的？”

假想答案（可能错误）：

“月球主要由奶酪组成。”（这是一个常见的童话或玩笑）

检索过程：

检索到的真实文档会描述月球的实际组成，如岩石、玄武岩等。

最终答案：

“月球主要由岩石和金属组成，表面覆盖着玄武岩和其他岩石类型。
'月亮是奶酪做的’是一个童话故事，并不是真实的。”

总结

HyDE的方法就是让AI先自己猜一个答案，然后用这个猜测去寻找相关的真实信息，最后结合起来，给出一个更准确、更有参考依据的回答。

HyDE方法具有容错性，即使假想答案有错误，整个流程仍然能够通过检索和信息综合来校正这些错误。
关键在于检索到的真实信息，它为模型提供了正确的依据。
LLM在生成最终答案时，会倾向于使用检索到的可信信息来纠正假想答案中的错误。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望