5.2.8 PDF文档加载器(PDFLoader)
Portable Document Format(PDF),作为 ISO 32000 标准化,是由 Adobe 在 1992 年开发的一种文件格式,用于以一种与应用软件、硬件和操作系统无关的方式呈现文档,包括文本格式和图像。在LangChain中,加载PDF文档的方法如下所示。
1. 使用 PyPDF
PyPDF 是一个用于处理PDF文件的Python库。它提供了一系列的功能,允许用户读取、写入、分析和修改PDF文档。在LangChain中,PyPDFLoader 使用 pypdf 库加载PDF文档为文档数组,每个文档包含页面内容和带有页码的元数据。
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("example_data/layout-parser-paper.pdf")
page