引言
在使用大型语言模型时,确保文本的token数量不超过模型的限制是至关重要的。合理地将文本分割为适当长度的块可以提高处理效率和准确性。在本文中,我们将介绍如何使用不同的tokenizer技术来实现这一目标。
主要内容
1. tiktoken快速BPE分词器
tiktoken
是由OpenAI开发的快速BPE分词器,适合用于OpenAI模型。它可以通过CharacterTextSplitter
或TokenTextSplitter
直接进行文本分割。
from langchain_text_splitters import CharacterTextSplitter
# 使用API代理服务提高访问稳定性
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
encoding_name="cl100k_base", chunk_size=<