Langchain使用介绍之-文档加载

最新推荐文章于 2025-01-30 17:28:09 发布

taoli-qiao

最新推荐文章于 2025-01-30 17:28:09 发布

阅读量4.6k

点赞数 2

分类专栏： Langchain 文章标签： langchain

本文链接：https://blog.csdn.net/qiaotl/article/details/132709044

版权

本篇博客介绍了Langchain加载多种文档的能力。它能加载txt、csv等格式文档，还支持网页、音频、pdf等。具体介绍了通过Langchain加载PDF文档、Youtube音频信息和Web Page的方法，还提及可通过json转换获取真正的文档内容，更多信息可查看官网。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Lanchain提供了加载多种文档的能力，Lanchain初了能加载txt，csv等格式文档外，还支持加载网页，音频，pdf等。本篇博客将介绍如何通过Langchain完成PDF文档，音频文档，网页文档的加载。

加载PDF文档

通过使用Langchain提供的PyPDFLoader，可以非常容易的加载一个已有的pdf文档，需要注意一点：使用PyPDFLoader需要安装pip3 install pypdf。

from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader(
    './chat-with-data/data/cs229_lectures/MachineLearning-Lecture01.pdf')
result = loader.load()
print(type(result))
print(len(result))
print(result[0])
page = result[0]
print(page.page_content)
print(page.metadata)

加载完成后，打印加载的信息，可以看到结果信息类型是一个List，List的长度是22，这个pdf的页数也是22。所以，存放PDF文档内容是按页来存储的。每一个List中的值，包含page_content和metadata信息。