文本切分器 | 说明 |
CharacterTextSplitter | 按字符来分割文本。 |
RecursiveCharacterTextSplitter | 按字符串分割文本,递归地尝试按不同的分隔符进行分割文本。 |
MarkdownHeaderTextSplitter | 基于指定的标题来分割markdown 文件。 |
MarkdownTextSplitter | 沿着Markdown的标题、代码块或水平规则来分割文本 |
SentenceTransformersTokenTextSplitter | 按token来分割文本 |
NLTKTextSplitter | 使用 NLTK(自然语言工具包)按句子分割文本。 |
SpacyTextSplitter | 使用 Spacy按句子的切割文本 |
PythonCodeTextSplitter | 沿着python类和方法的定义分割文本 |
LatexTextSplitter | 沿着Latex标题、标题、枚举等分割文本,如下面的分割符涉及的多个符号,如chapter,section,subsection等。 |
okenTextSplitter | 按token来分割文本 |
langchain内置了如下文档切分器
最新推荐文章于 2024-10-17 17:26:49 发布