langchain教程-5.DocumentLoader/多种文档加载器

the_3rd_bomb

已于 2025-02-06 22:55:11 修改

阅读量1.1k

点赞数 28

CC 4.0 BY-SA版权

文章标签： langchain python 自然语言处理

于 2025-02-06 22:29:08 首次发布

本文链接：https://blog.csdn.net/the_3rd_bomb/article/details/145483132

前言

该系列教程的代码: https://github.com/shar-pen/Langchain-MiniTutorial

我主要参考 langchain 官方教程, 有选择性的记录了一下学习内容

这是教程清单

Document

用于存储一段文本及其相关元数据的类。

page_content （必需）：以字符串形式存储一段文本。
metadata （可选）：以字典形式存储与 page_content 相关的元数据。

from langchain_core.documents import Document

document = Document(page_content="Hello, welcome to LangChain Open Tutorial!")

document

Document(metadata={}, page_content='Hello, welcome to LangChain Open Tutorial!')

文档加载器（Document Loader）

文档加载器是一个用于从各种来源加载 Document 的类。

以下是一些常见的文档加载器示例：

PyPDFLoader ：加载 PDF 文件
CSVLoader ：加载 CSV 文件
UnstructuredHTMLLoader ：加载 HTML 文件
JSONLoader ：加载 JSON 文件
TextLoader ：加载纯文本文件
DirectoryLoader ：从目录中批量加载文档

from langchain_community.document_loaders import PyPDFLoader

# Set up the loader
FILE_PATH = "./data/01-document-loader-sample.pdf"
loader = PyPDFLoader(FILE_PATH)

load()

加载文档，并以 list[Document] 的形式返回。

docs = loader.load()
print(len(docs))
print('-'*3)
docs[0:2]

48
---





[Document(metadata={'source': './data/01-document-loader-sample.pdf', 'page': 0}, page_content=' \n \n \nOctober 2016 \n \n \n \n \n \n \n \n \n \nTHE NATIONAL  \nARTIFICIAL INTELLIGENCE \nRESEARCH AND DEVELOPMENT \nSTRATEGIC PLAN  \nNational Science and Technology Council \n \nNetworking and Information Technology \nResearch and Development Subcommittee \n '),
 Document(metadata={'source': './data/01-document-loader-sample.pdf', 'page': 1}, page_content=' ii \n \n ')]

aload()

异步加载文档，并以 list[Document] 的形式返回。

# Load Documents asynchronously
docs = await loader.aload()

lazy_load()

顺序加载文档，并以 Iterator[Document] 的形式返回。

docs = loader.lazy_load()

for doc in docs:
    print(doc.metadata)
    break  # Used to limit the output length

alazy_load()

异步顺序加载文档，并以 AsyncIterator[Document] 的形式返回。

可以观察到，这种方法作为一个 async_generator 工作。它是一种特殊类型的异步迭代器，能够按需生成值，而不需要一次性将所有值存储在内存中。

loader.alazy_load()
docs = loader.alazy_load()
async for doc in docs:
    print(doc.metadata)
    break  # Used to limit the output length

load_and_split()

加载文档，并使用 TextSplitter 自动拆分为多个文本块，最终以 list[Document] 的形式返回。

from langchain_text_splitters import RecursiveCharacterTextSplitter

# Set up the TextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=128, chunk_overlap=0)

# Split Documents into chunks
docs = loader.load_and_split(text_splitter=text_splitter)

<