Lanchain提供了加载多种文档的能力,Lanchain初了能加载txt,csv等格式文档外,还支持加载网页,音频,pdf等。本篇博客将介绍如何通过Langchain完成PDF文档,音频文档,网页文档的加载。
加载PDF文档
通过使用Langchain提供的PyPDFLoader,可以非常容易的加载一个已有的pdf文档,需要注意一点:使用PyPDFLoader需要安装pip3 install pypdf。
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader(
'./chat-with-data/data/cs229_lectures/MachineLearning-Lecture01.pdf')
result = loader.load()
print(type(result))
print(len(result))
print(result[0])
page = result[0]
print(page.page_content)
print(page.metadata)
加载完成后,打印加载的信息,可以看到结果信息类型是一个List,List的长度是22,这个pdf的页数也是22。所以,存放PDF文档内容是按页来存储的。每一个List中的值,包含page_content和metadata信息。