LangChain-v0.2 构建 PDF 采集和问答系统

PDF 文件通常包含其他来源无法获取的重要非结构化数据。它们可能非常长,而且与纯文本文件不同,通常无法直接输入到语言模型的提示中。

在本中,我们将创建一个可以回答有关 PDF 文件的问题的系统。更具体地说,就是使用文档加载器加载 LLM 可以使用的格式的文本,然后构建检索增强生成 (RAG) 管道来回答问题,包括来自源材料的引文。

一、加载文档

首先,您需要选择要加载的 PDF。我们将使用 Python基础学习 文档。它长达 197 页,包含一些关键数据和较长的说明性文字。不过,您可以随意使用您选择的 PDF。

选择 PDF 后,下一步是将其加载为 LLM 更容易处理的格式,因为 LLM 通常需要文本输入。LangChain 内置有几个不同的文档加载器可用于文档转化文本,您可以尝试使用。下面,我们将使用一个由包提供支持的pypdf从文件路径读取的加载器:

1、安装所需库:

%pip install -qU pypdf langchain_community
%pip install faiss-cpu

2、代码使用:

from langchain_community.document_loaders import PyPDFLoader

file_path = "PythonBase.pdf"
loader = PyPDFLoader(file_path)

docs = loader.load()

print(len(docs))
print(docs[0].page_content[0:100])
print(docs[0].metadata)

打印结果可以看出,能够正常的将pdf文档内容读取,这里的 PythonBase.pdf 替换成你们自己的pdf文档,放到跟代码同一目录下,即可正常读取到。

上面的代码实现逻辑:

1)加载器将指定路径下的PDF读入内存。

2)然后它使用该包提取文本数据pypdf。

3)最后,它为 PDF 的每一页创建一个 LangChain文档,其中包含页面的内容以及有关文本来源位置的一些元数据。

二、使用RAG

接下来,我们将已加载的文档进行处理,以供稍后检索。在此使用文本分割器,把已加载的文档分割成更小的文档,以便更容易地放入 LLM 的上下文窗口,然后将它们加载到向量存储中。然后,从向量存储中创建一个检索器,以在我们的 RAG 链中使用:

1、使用语言模型:

LangChain支持许多不同的语言模型,包含:OpenAI、Anthropic、Azure、Google、Cohere、FireworksAI、Groq、MistralAI、TogetherAI等,您可以互换使用 ,选择您要使用的语言模型!

1)下面内容将居于OpenAI语言模型进行演示:

pip install -qU langchain-openai

2)配置API KEY环境

import os
os.environ["OPENAI_API_KEY"]="填写自己的API KEY"
os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_API_KEY"]="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"
from langchain_openai import ChatOpenAI
 
model = ChatOpenAI(model="gpt-4")

2、文本分割器

from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

#向量化
vector = FAISS.from_documents(splits, OpenAIEmbeddings())
retriever = vector.as_retriever()

3、使用一些内置助手来构建最终的rag_chain

from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate

system_prompt = (
    "你是问答任务的助理,使用以下检索到的上下文来回答问题。如果你不知道答案,就说你不知道。最多使用三句话,并保持回答简明扼要。"
    "\n\n"
    "{context}"
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("human", "{input}"),
    ]
)


question_answer_chain = create_stuff_documents_chain(model, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

results = rag_chain.invoke({"input": "介绍一下python"})

results

answer 中你可以看到,在 results 中获得了最终答案,并且 context 获得了用于生成答案的 LLM。

检查 context 数据,您可以看到它们是每个包含一部分提取的页面内容的文档。有用的是,这些文档还保留了第一次加载时的原始元数据。在 metadata 中还可以看到文档来源和页码。

 

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sziitjin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值