LangChain学习：RAG检索策略

gz927cool

已于 2024-05-30 16:55:04 修改

阅读量256

点赞数 1

分类专栏：学习笔记文章标签： langchain 学习 nlp

于 2024-05-30 16:52:56 首次发布

本文链接：https://blog.csdn.net/gz927cool/article/details/139326600

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

检索是RAG系统至关重要的一个部分。目前本人了解的优化方向有两个，一是提高召回率，二是增加多样性。
召回率是检索的基础，能准确的找到目标文档才能为后续的生成模型提升正确的指导。

提高召回率有几个非常直观的方法：

检索加排序的结构，先从大量文本中用bi_encoder检索出n个的相关文档，再利用cross_encoder/ColBert 对这n个模型进行排序，从中选择相关性前k个作为检索结果。
微调用于嵌入embedding模型
同时使用基于词法的关键词检索和基于语义的向量检索

从增加多样性来看，有一个非常直观的方法:

先从候选集中选择与问题最相关的文本块，然后再依次选择与已有结果最不相似的。

可以从LangChain的Retriver中看到一些其他的策略，例如：

生成问题的变体： MultiQueryRetriever
集成多个嵌入模型： MultiVectorRetriever
检索时直接避免重复： Max marginal relevance
使用元数据对检索内容进行过滤： Self Query Retriever

综合应用这些方法，可以通过提高所检索到的Context的质量有效提升RAG系统的效果。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

gz927cool

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【LangChain编程：从入门到实践】LangChain中的RAG组件

AI架构设计之禅

08-14

608

通过结合检索和生成过程，RAG组件显著提升了问答系统的性能，尤其是在处理特定领域问题时。RAG组件的出现为自然语言处理技术开辟了新的应用领域，并为未来的研究提供了新的视角和工具。

【AI大模型应用开发】【LangChain系列】实战案例3：深入LangChain源码，你不知道的WebResearchRetriever与RAG联合之力

同学小张的博客

03-11

1637

我们学习了如何利用 LangChain 通过 URL 获取网页内容。本文我们继续学习利用 LangChain 进行网络数据抓取：我们将利用 LangChain 抓取网络数据来回答我们指定的问题（也就是类似网络 + RAG）。

参与评论您还未登录，请先登录后发表或查看评论

LangChain之关于RetrievalQA input_variables 的定义与使用

c___c18的博客

11-07

1686

最近在使用LangChain来做一个LLMs和KBs结合的小Demo玩玩，也就是RAG（etrievalugmentedeneration）。这部分的内容其实在的官网已经给出了流程图。我这里就直接偷懒了，准备对进行复刻练习，那么接下来就是照着葫芦画瓢就行。那么我卡在了Retrieve这一步。我对和这三个地方的input_key不明白为啥一定要这样设置。虽然我也看了LangChain的。但是我并未得到详细的答案，那么只能一行行看源码是到底怎么设置的了。

LangChain - Retrievers

AI + 工程

04-06

1367

一、入门 BaseRetriever 向量检索一行代码创建索引 (One Line Index Creation) Walkthrough 二、上下文压缩 contextual_compression 入门使用纯向量存储检索器添加上下文压缩使用 `LLMChainExtractor` 更多内置压缩器：过滤器 `LLMChainFilter` `EmbeddingsFilter` 将压缩器和文档转换器串联起来三、自查询 self_query 入门 (Pinecone 创建自查询检索器测试过滤 k

利用LangChain实现RAG

qiaotl的博客

11-13

5717

通过实际代码例子详细阐述如何实现RAG(检索增强生成)

【可能是全网最丝滑的LangChain教程】十二、LangChain进阶之Retrieval

Jeffray1991的博客

05-27

720

在大模型开发中，Retrieval（检索）通常指的是从一个大型知识库或语料库中查找与当前任务相关的信息或数据的过程。这种检索过程是为了解决纯基于生成（Generative）模型在处理某些复杂任务时可能出现的知识局限性问题。生成模型，如GPT或BERT，虽然能够生成连贯的文本，但它们的记忆能力有限，可能无法记住所有训练数据中的事实信息。许多 LLM 应用程序都需要一些特定的数据，这些数据不属于模型的训练集。

Langchain核心模块与实战[9]：RAG检索增强生成[文本向量化、实战ChatDoc智能文档助手]

丨汀、的博客

07-25

665

Langchain核心模块与实战[9]：RAG检索增强生成[文本向量化、实战ChatDoc智能文档助手]

【LangChain编程：从入门到实践】RAG技术概述

AI天才研究院

06-12

594

【LangChain编程：从入门到实践】RAG技术概述 1. 背景介绍 1.1 什么是LangChain LangChain是一个用于开发由语言模型驱动的应用程序的框架。它可以帮助开发人员将语言模型与外部数据

【LangChain编程：从入门到实践】RAG

AI天才研究院

07-06

726

在当前信息爆炸的时代，如何高效地处理和理解海量数据是许多企业和研究机构面临的重大挑战。随着自然语言处理技术的进步，尤其是基于大型预训练模型的能力增强，开发能够自动理解和生成高质量文本的应用成为可能。然而，在面对复杂的查询或需要上下文信息的情况时，传统的基于规则的系统往往难以满足需求，而依赖于外部知识库的人工干预又显得繁琐且成本高。Retrieval-Augmented Generation（RAG）是一种集成检索和生成过程的技术，旨在通过检索相关上下文信息来增强生成模型的输出质量。

LangChain - 基于图的元数据过滤

AI + 工程

05-23

1163

一、使用 LangChain 和 Neo4j 基于图形的高级元数据技术优化矢量检索二、Agenda 议程三、功能实现四、定义 OpenAI 代理五、实施测试六、概括

【大模型从入门到精通19】开源库框架LangChain LangChain文档加载器1

kaggle expert，全球排名前1000，清华计算机研究生，兴趣算法工程

08-13

1259

在数据驱动的应用领域，特别是涉及对话界面和大型语言模型（LLM）的应用中，从各种来源高效加载、处理并与数据进行交互的能力至关重要。这些加载器擅长处理来自公共源的数据，如 YouTube、Twitter 和 Hacker News，同时也适用于来自专有源的数据，如 Figma 和 Notion。保存清洗后的文本：可选地，脚本可以将清洗和分词后的文档文本保存到文件中。这个扩展的代码提供了一个更全面的示例，展示如何从加载和清洗文本到基本分析和处理特殊情况，对 PDF 文档进行程序化的处理。

Spring Boot 学习和使用

cesske的博客

09-24

1091

Spring Boot是一款开源的Java Web应用框架，旨在简化Spring应用的初始搭建以及开发过程。Spring Boot通过整合Spring技术栈中的诸多关键组件，为开发者提供了一种快速、简便的Spring应用开发方式。它遵循“约定优于配置”的原则，通过自动配置、起步依赖和内置的Servlet容器，极大地简化了传统Spring应用的配置和部署过程。Spring Boot通过其自动化配置、起步依赖、内嵌服务器等特性，极大地简化了Spring应用的开发和部署过程。

Go基础学习08-并发安全型类型-通道（chan）深入研究

最新发布

FLJS_T的博客

09-28

631

在前面学习中了解到对于单值变量，如：int、string；多值变量，如：map存在多协程对资源竞争的并发问题，为了解决并发性通常需要引入sync.Mutex解决。>对于通道的基本声明方式有三种：声明并初始化带缓冲的通道（ch1）；声明并初始化一个不带缓冲的通道（ch2）；仅仅声明一个通道（ch3） >什么是通道：==一个通道相当于一个先进先出（FIFO）的队列。也就是说，通道中的各个元素值都是严格地按照发送的顺序排列的，先被发送通道的元素值一定会先被接收。Select和for循环实现对channel的多次选

大模型输入参数学习

AI智能，无处不在

09-25

537

top_p和top_k：用于控制生成文本的多样性和连贯性。较小的值会使生成的文本更连贯但缺乏多样性，较大的值会使生成的文本更随机和多样。：用于控制生成文本的随机性。较高的值增加随机性，较低的值增加确定性。：用于控制生成文本的长度。

Nexus学习

howwickhappy的博客

09-24

983

Nexus 是一个开源的仓库管理器，用于管理和分发软件构建的组件。

Linux入门学习：进程概念

Lvision2的博客

09-24

1071

在课本的概念中，进程程序的一个执行实例，正在执行的程序。其内核观点：担当分配系统资源（CPU时间，内存）的实体。但这些概念太笼统，并不能让我们更加清晰的知道进程是什么，实际上，进程是内核数据结构(pcb) + 程序的代码与数据。pcb(process control block)进程控制块，进程信息被放在一个叫pcb的数据结构中，可以理解为进程属性的集合。在Linux入门学习：深刻理解计算机硬件与OS体系中，我们已经了解到。

2024-2025华为ICT大赛报名｜赛前辅导｜学习资料

qq2859066538的博客

09-25

271

华为ICT大赛是华为公司打造的面向全球高校的年度ICT赛事，大赛以“联接、荣耀、未来”为主题，协同政府、高等教育机构、培训机构和行业企业，促进高校ICT人才培养、成长和就业，助力ICT人才生态繁荣。华为ICT大赛2023-2024实践赛涵盖网络、云、计算（第九届华为ICT大赛更名为基础软件）和昇腾AI四个赛道。为有效帮助参赛者把握命题思路、突破重点内容、检验学习效果、提高实战经验，更充分地备战大赛，华为首次推出华为ICT大赛2023-2024实践赛真题实战系列课程，为您铺就通往大赛的成功之路。

js基础巩固学习，包含数据类型、继承、闭包、数组、异步、垃圾回收机制等

m0_73761441的博客

09-23

1602

js基础巩固学习，包含数据类型、继承、闭包、数组、异步、垃圾回收机制等

用langchain来接RAG

01-16

langchain是一个用于处理RAG（Retrieval-Augmented Generation）模型的Python库。它提供了多种方式来使用RAG模型进行检索和生成答案。在使用langchain时，可以指定不同的chain_type来实现不同的功能。以下是使用...