利用语义相似性智能分割文本：深入解析与实战演示_语义化切割文档 python 开源-CSDN博客

本文链接：https://blog.csdn.net/llllllns/article/details/144412017

# 引言
文本分割在数据处理和自然语言处理领域中具有重要意义，尤其是在语义上进行文本的智能分割，可以大大提高文本分析和处理的效率。本文将介绍如何基于语义相似性分割文本，并探讨其中的挑战与解决方案。

# 主要内容

## 1. 安装必要的依赖
在开始之前，您需要安装一些Python库，包括`langchain_experimental`和`langchain_openai`，以便能够使用语义分割功能。

```bash
!pip install --quiet langchain_experimental langchain_openai

2. 加载示例数据

我们将使用一份长文档，作为分割的例子。

# 这是我们需要分割的长文档
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

3. 创建语义分割器

为了创建一个SemanticChunker对象，我们需要指定一个嵌入模型。这里我们使用OpenAIEmbeddings。

from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

text_splitter = SemanticChunker(OpenAIEmbeddings())

4. 分割文本

使用create_documents方法来创建LangChainDocument对象，这些对象即为分割出的文本块。

docs = text_splitter.create_documents([state_of_the_union])
print(docs[0].page_content)

5. 确定分割阈值

5.1 百分位数法

默认的分割方法是基于百分位数，通过计算句子之间的差异，并根据设定的百分位数划分。

text_splitter = SemanticChunker(
    OpenAIEmbeddings(), breakpoint_threshold_type="percentile"
)

5.2 标准差法

这一方法根据标准差进行划分，任何超过X个标准差的差异都会被分割。

text_splitter = SemanticChunker(
    OpenAIEmbeddings(), breakpoint_threshold_type="standard_deviation"
)

5.3 四分位距法

使用四分位距来进行划分。

text_splitter = SemanticChunker(
    OpenAIEmbeddings(), breakpoint_threshold_type="interquartile"
)

5.4 梯度法

结合百分位数的方法使用差异梯度来进行划分，非常适合于高度相关的语料或特定领域的数据。

text_splitter = SemanticChunker(
    OpenAIEmbeddings(), breakpoint_threshold_type="gradient"
)

代码示例

以下是一个完整的代码示例，演示如何使用百分位数法进行文本的语义分割。

from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# 初始化语义分割器
text_splitter = SemanticChunker(OpenAIEmbeddings(), breakpoint_threshold_type="percentile")

# 分割文本
docs = text_splitter.create_documents([state_of_the_union])
print(docs[0].page_content)