LangChain初体验之文档拆分_langchainw文档划分-CSDN博客

本文链接：https://blog.csdn.net/2401_84215165/article/details/137791837

本文介绍了LangChain中的文本拆分功能，包括按字符、代码（如Python）和Markdown格式拆分文档，以便适应不同应用场景。通过自定义参数调整块的大小和重叠，保持语义相关性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

加载文档后，您通常希望对其进行转换以更好地适应您的应用程序。最简单的例子是，您可能希望将长文档拆分为适合模型上下文窗口的较小块。LangChain有许多内置的文档转换器，可以轻松拆分、组合、过滤和以其他方式操作文档。

当您想处理长文本时，有必要将该文本拆分为块。尽管这听起来很简单，但这里有很多潜在的复杂性。理想情况下，您希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型。本笔记本展示了几种方法来做到这一点。

在高级别上，文本拆分器的工作方式如下：

这意味着有两个不同的轴，您可以沿着它们自定义文本拆分器：

这是最简单的方法。这基于字符（默认为“”）进行拆分，并通过字符数测量块长度。

from langchain_text_splitters import CharacterTextSplitter

with open("text_spliter.txt", "r") as f:
    state_of_the_union = f.read()

text