大家好,我是学生大使 Jambo。这个系列的目标是做出一个根据资料回答问题的机器人,那么从资料源中提取文本信息就是一件必要的事。但我们的资料源格式是多样的,比如 PDF、Word、HTML、PPT 等等,甚至有的资料源来自于网络,这些格式都不能直接提取出文本,但好在 Python 有很多第三方库可以帮助我们提取文本信息,并且 LangChain 也帮我们整合到了一起,我们只需要调用 LangChain 的接口就可以了。
我在公开网络上找到了一份 PDF 格式的合同,我们就以这份合同为例,介绍一下如何提取文本信息。
文本提取
LangChain 针对 PDF 包含了许多第三方库,比如 PyPDF2
、PyPDFium2
、PDFMiner
等等,这里我们以 PyPDF2
为例,介绍一下如何提取文本信息。
pip install pypdf
我们使用 PyPDFLoader
来加载 PDF 文件,然后调用 load
方法就可以得到文本信息了。PDF 的读取器会将 PDF 文件中的每一页转换成一段文本,然后将这些文本段组成一个列表返回。
from langchain.document_loaders import PyPDFLoade