大模型检索增强生成（RAG）的最终形态是AGENT？

最新推荐文章于 2024-09-05 15:53:53 发布

江湖人称麻花滕

最新推荐文章于 2024-09-05 15:53:53 发布

阅读量860

点赞数 31

文章标签：人工智能 chatgpt AI技术 AI大模型金融

本文链接：https://blog.csdn.net/m0_59235699/article/details/139425499

版权

关于优化RAG应用的核心思考

关于优化RAG应用，核心可以归结为两大要素：检索与LLM的表现力。在这两个核心要素的基础上，我们可以探讨众多优化手段。而在其他方面，例如对_Prompt Template_的微调，则相对来说收益较小。

所谓的RAG，即_Retrieval-Augmented Generation_（检索增强生成），其强大之处在于能够将大型模型与企业自有数据结合，以处理特定领域的知识查询问题。优化过程主要包含两个步骤。首先，基于用户提出的问题，在《员工手册》中寻找最相关的N个内容片段；其次，将问题与这些内容片段一同送入大型模型中，以获得答案。

对企业员工而言，在使用RAG时，他们的查询需求涵盖了哪些方面？可能企业对RAG的需求定义是一个包含了信息抽取问答、数值计算问答、逻辑推理类问答等在内的综合性"全方位服务"。在这样的广义需求下，传统的“狭义RAG解决方案”往往无法完全符合要求，导致查询效果不如预期。因此，一个既能满足自身需求又能满足客户需求的解决方案才是真正的优质方案。

回顾文章一开始提出的两点思考，在文中我们有针对第二点进行探讨，虽然从有限的客户需求出发，分析了某些挑战及其应对策略，但在各行业中RAG的形态可能各不相同，我们的理解仍然非常有限。

RAG涉及的流程十分复杂，包括文本的切割、向量化后的存储至向量数据库中、通过KNN算法检索最相似的K个文本片段，并将这些片段整合为提示词去驱动LLM。这一系列步骤中的任何一个环节出现问题，都可能引发连锁反应，从而使得最终结果的可靠性无法达到客户的期望。

检索策略的多样性

在进行信息召回时，最常见的方法包括：1. 使用ES进行全文检索； 2. 利用向量ANN检索，这是提及向量检索时首先会想到的方法。此外，我们还可以创建关键词表，通过多模匹配的简单且高效的方法进行召回。如果需要检索的目标数据是结构化的，例如基于某个数据表格的内容使LLM提供响应，那我们可以借助SQL进行召回。还有一些针对特定场景的基于树的知识匹配召回方法，在这种情况下，可以根据用户的个人数据和画像，通过预设的决策树结构挑选适合的知识为LLM提供上下文。

现在，越来越多的实践者开始认识到，仅靠一套向量数据库的解决方案已不足以满足需要，因此出现了多种创新的方法。这些方法从建立索引到生成回复，各具特色，实现了多样化：例如，对于容易被切割的内容，采用智能段落划分；针对向量生成的质量控制问题，可以使用Instructor根据不同的QA场景动态生成向量。除了直接生成的向量，还可以通过HyDE添加一个中间层，即先制造一些虚拟文档/假设文档进行召回，从而提高召回率。如果单纯的向量召回效果不佳，可以结合关键词召回，使用传统的BM25和向量HNSW合并召回路径。召回的内容过多可能会干扰答案的产生，这时可以探索Lost in the Middle技巧，或者使用LLMLingua进行压缩。对于召回过程太复杂的情况，可以考虑将大量数据直接送进大模型，使用LongLoRA直接处理。各个环节的改进点可能很多，可以让大模型自动完成每一步，这就是Self-RAG的工作方式。

要想提高检索的效率和准确性，建立元数据过滤单元至关重要，而不是仅依赖全文检索。通过更精细化的索引，根据查询需求先行过滤，例如按时间、内容源等因素进行筛选。同时，建立全文处理单元是解决信息损耗问题的关键，需要从离线和在线两个角度考虑：离线部分通过预计算满足高频需求，而在线部分则覆盖长尾需求。此外，建立数值计算单元能够补充大模型在处理数学题时的不足，并引入金融行业的计算公式或企业的自定义计算公式。数据库查询单元则是与“数值计算”不同的另一个区域，专注于NL2Sql，一些信息查询需要通过数据库进行而不仅限于文章内容检索。当查询需求不明确时，意图澄清单元的作用就显得尤为重要，系统需要能够协助用户改善查询语言，以便更精确地获取所需信息。

RAG的整体处理链路较长，包括文本的切分、向量化以及将文本存储到向量数据库中。接下来，通过KNN检索找出最相似的K个文本片段，从而完成整个召回流程。

对于改善召回效率，大量的工作需要集中于入库阶段的优化。

LangChain 提供了多种文本分割工具，这是优化的一个重要环节。在此基础上，还需要构建元数据过滤模块。这意味着，在进行全文搜索之前，我们应先通过更细粒度的索引进行一次筛选，这包括根据时间、内容来源等多个维度进行过滤。

此外，考虑到RAG（可检索的生成模型）的流程较为复杂，它要求对文本进行分割处理，接着将分割后的文本向量化，并存储进向量数据库中。这些步骤的有效执行对于整体流程的优化至关重要。

检索结果的优化排序

在完成召回阶段之后，接下来的步骤是对召回的多个结果进行排序，这一步骤被称作重排序或精确排序。如果说召回阶段的目标是高效地找出与查询语句相关的内容，那么精确排序的目的就是对这些内容的相关性进行评估，以确保最有可能提供准确且相关回答的内容能够被优先展示。

精确排序的方法可以参照传统搜索引擎架构中的排序模型，或者采用大型语言模型（通过微调或者使用提示）来实现。

无直接相关内容。

在进行初步检索后，系统带着一丝自豪地说道：

“这个问题挺有挑战的，化学制品行业的关注度每天都在波动，比如5月6日排名第5，到了5月7日变成第6，你想了解哪一天的情况呢？”

用户迅速回应说：“那就查昨天的情况吧。”系统经过一番思考后，决定首先应用“元数据过滤”来减少数据的查询范围，随后利用“检索+生成”的方式，成功地生成了一个令人满意的答复。

RAG的终极形态：Agent

“在RAG的路径终点，我们找到了Agent”

关于RAG（检索增强生成）的市场方向，是近来有关于大型模型应用领域讨论中相对难以着墨的一个方向。这一方面源于其技术方案正处于迅速的更新迭代之中；另一方面则因为市场对其存在一定程度的理解偏差。目前，市场普遍认为，利用大型模型进行数据查询和分析（即chatBI）虽实用却难以实现；让大模型规划任务去满足用户复杂需求（即Agent）听起来颇为先进，但是实际的应用案例不多，成熟度不高。然而，对于RAG，企业普遍认识到其价值，并且通过一系列技术手段的组合（如文本分割、向量数据库以及大模型）能够有效解决问题，被视为企业应用落地的优选方案。

笔者通过使用Agent的构思进行企业知识问答体系的搭建，展示了这不仅可能成为产品标准化和成本控制的有效路径，而且标志着“RAG的尽头是Agent”。

写在最后

提升RAG应用的关键在于增强检索的准确性及模型的性能，同时确保方案既能满足企业自身也能满足客户的各种需求。

在这个日新月异的世界里，我们能否依靠技术搭建桥梁，打造出能够针对未来问题进行更智能探索的解决方案呢？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述