大语言模型常见的文本切分方式整理汇总

最新推荐文章于 2025-03-16 23:31:44 发布

深度学习机器

最新推荐文章于 2025-03-16 23:31:44 发布

阅读量1.8k

点赞数 9

分类专栏：大语言模型文章标签：语言模型人工智能

本文链接：https://blog.csdn.net/qq_33137873/article/details/135704341

版权

整理

本文整理了一些简单的文本切分方式，适用于大语言模型经典应用RAG或相似场景。

一般切分

如果不借助任何包，很容易想到如下切分方案：


text = "我是一个名为 ChatGLM3-6B 的人工智能助手，是基于清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同训练的语言模型开发的。我的目标是通过回答用户提出的问题来帮助他们解决问题。由于我是一个计算机程序，所以我没有实际的存在，只能通过互联网来与用户交流。"
chunks = []
chunk_size = 128 

for i in range(0, len(text), chunk_size):
    chunk = text[i:i + chunk_size]
    chunks.append(chunk)
chunks

['我是一个名为 ChatGLM3-6B 的人工智能助手，是基于清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同训练的语言模型开发的。我的目标是通过回答用户提出的问题来帮助他们解决问题。由于我是一个计算机程序，所以我没有实际的存在，只能通过互联网',
 '来与用户交流。']

字符切分

使用CharacterTextSplitter，一般的设置参数为：chunk_size、 chunk_overlap、separator和strip_whitespace。

from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(chunk_size = 35, chunk_overlap=0, separator='', strip_whitespace=False)
text_splitter.create_documents([text])