（20-3-01）基于《哈利·波特》系列图书内容的问答系统：LangChain多文档检索器(01)加载文档+文本分割+创建嵌入+加载向量数据库

最新推荐文章于 2024-09-01 11:55:12 发布

码农三叔

最新推荐文章于 2024-09-01 11:55:12 发布

阅读量929

点赞数 12

分类专栏：《NLP算法实战》大模型从入门到实战(数据集、训练、RAG、多模态) 文章标签： langchain 人工智能 python 自然语言处理 NLP 大模型语言模型

本文链接：https://blog.csdn.net/asd343442/article/details/139102538

版权

大模型从入门到实战(数据集、训练、RAG、多模态) 同时被 2 个专栏收录

181 篇文章 0 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

《NLP算法实战》

127 篇文章 18 订阅

订阅专栏

8.5 基于LangChain的多文档检索器

在本节的内容中，将准备好文本文档供自然语言处理（NLP）任务使用，基于LangChain实现多文档检索器。具体来说，分别实现加载、分割、创建嵌入（embeddings）等操作，并将这些嵌入保存到向量存储（Vector Store）中。本步骤是NLP项目中常见的文档处理步骤，特别是在构建聊天机器人、问答系统或文本检索系统时。通过这种方式，可以将非结构化的文本数据转换为机器可理解的格式，并用于执行复杂的语言任务。

8.5.1 加载文档

使用LangChain中的类DirectoryLoader加载指定目录中的PDF文件，以便进行后续的文本提取、嵌入生成或相似性搜索等操作。

loader = DirectoryLoader(
    CFG.PDFs_path,
    glob="./*.pdf",
    loader_cls=PyPDFLoader,
    show_progress=True,
    use_multithreading=Tr

了解本专栏

超级会员免费看

码农三叔

关注

12
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
（20-3-01）基于《哈利·波特》系列图书内容的问答系统：LangChain多文档检索器(01)加载文档+文本分割+创建嵌入+加载向量数据库

通过下面的代码，将原始文档转换成了一系列较小的、可管理的文本块，这些文本块可以被用来生成嵌入，进而用于文本相似性搜索或其他NLP任务。下面的代码用于检查是否存在一个FAISS索引文件，如果不存在，则自动下载相应的Hugging Face嵌入模型，并使用该模型为文本文档创建嵌入，随后将这些嵌入保存为FAISS向量数据库，以便于后续的文本相似性搜索和检索。整个代码块的目的是确保存在一个可用于文本相似性搜索的FAISS向量数据库，如果数据库不存在，则从文本嵌入的创建开始，自动完成整个设置过程。
复制链接

扫一扫