深入理解RecursiveCharacterTextSplitter：文本分割的递归魔法

最新推荐文章于 2025-03-17 11:31:36 发布

engchina

最新推荐文章于 2025-03-17 11:31:36 发布

阅读量3k

点赞数 7

分类专栏： LINUX 文章标签： python 开发语言分割人工智能文本分割

本文链接：https://blog.csdn.net/engchina/article/details/143318366

版权

深入理解RecursiveCharacterTextSplitter：文本分割的递归魔法

在处理文本数据时，我们经常需要将大段文本分割成更小的块（chunks），以便于后续的处理或分析。例如，在自然语言处理（NLP）任务中，我们可能需要将一篇文章分割成多个句子或段落，以便逐个处理。今天，我们将介绍一个强大的文本分割工具——RecursiveCharacterTextSplitter，它能够根据指定的分隔符递归地将文本分割成小块。

1. 什么是RecursiveCharacterTextSplitter？

RecursiveCharacterTextSplitter 是一个Python类，用于将文本递归地分割成指定大小的块。它的核心思想是根据一组分隔符（separators）逐步分割文本，直到每个块的大小都符合预设的chunk_size。如果某个块仍然过大，它会继续递归地分割，直到满足条件为止。

2. 如何使用RecursiveCharacterTextSplitter？

2.1 初始化

首先，我们需要初始化一个RecursiveCharacterTextSplitter对象。在初始化时，我们可以指定以下参数：

separators：一个字符串列表，表示用于分割文本的分隔符。默认值为["\n\n", "\n", " ", ""]，即首先按段落分割，然后按行分割，最后按空格分割，如果都不行则按字符分割。
chunk_size：每个块的最大大小（以字符数为单位）。默认值为100。
chunk_overlap：块与块之间的重叠部分的大小。默认值为20。

from typing import List, Optional
import re

class RecursiveCharacterTextSplitter:
    def __init__(self, separators: Optional[List[str]] = None, chunk_size: int = 100, chunk_overlap: int = 20):
        self.separators = separators or ["\n\n", "\n", " ", ""]
        self.chunk_size = chunk_size
        self.chunk_overlap = chunk_overlap

2.2 分割文本

一旦初始化完成，我们就可以使用split_text方法来分割文本。这个方法会返回一个字符串列表，每个字符串代表一个分割后的块。

text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)
texts = text_splitter.split_tex

最低0.47元/天解锁文章