使用Tiktoken进行文本分割：优化大语言模型的输入

最新推荐文章于 2024-12-14 10:06:58 发布

bhawfgrcbtwny

最新推荐文章于 2024-12-14 10:06:58 发布

阅读量667

点赞数 4

文章标签：语言模型 python 人工智能

本文链接：https://blog.csdn.net/bhawfgrcbtwny/article/details/142800116

版权

引言

在处理大语言模型时，因其对输入的token数量有限制，文本分割成为一个至关重要的任务。为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。在本文中，我们将探讨如何使用Tiktoken和其他工具来实现有效的文本分割。

主要内容

1. Tiktoken介绍

Tiktoken是由OpenAI创建的一个快速BPE（Byte Pair Encoding）tokenizer，能够准确估计OpenAI模型使用的tokens数量。它通过指定字符进行分割，并借助CharacterTextSplitter与RecursiveCharacterTextSplitter等工具实现分割。

2. 分割文本的方法

CharacterTextSplitter

可以使用Tiktoken的from_tiktoken_encoder方法进行分割，但要注意，这种方法可能会生成比预期更大的块。

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bhawfgrcbtwny

关注关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深入解析Tiktokenizer：大语言模型中核心分词技术的原理与架构

Sapphire521的博客

03-04

163

Tiktokenizer是大语言模型中一个非常关键的组件，它通过高效的分词技术，帮助模型理解文本数据，并在训练和推理过程中提高效率。通过BPE、子词分割等技术，Tiktokenizer能在不同场景下提供灵活的分词方案，同时具有良好的可扩展性，能够应对大规模数据处理的需求。如果你对Tiktokenizer的实现有更深入的兴趣，或者希望了解具体的代码实现细节，可以参考相关的论文或源代码进行深入研究。

高效文本分割技巧：使用Token化器优化语言模型性能

sjufgwgfhoia的博客

12-03

360

Token化器是将文本分解为较小的、可管理的单元——即tokens（令牌）的工具。这对于进一步的处理和分析至关重要。在本文中，我们将探讨几种常用的token化器及其在文本分割中的应用。本文概述了如何使用不同的token化器对文本进行分割。理解这些工具的工作原理并灵活运用，可以帮助开发者更好地管理和优化文本在NLP任务中的处理。

参与评论您还未登录，请先登录后发表或查看评论

书生·浦语大模型实战营之手把手带你评测 Llama 3 能力（OpenCompass 版）

段智华的博客

05-07

1378

书生·浦语大模型实战营之手把手带你评测 Llama 3 能力（OpenCompass 版）运行结果为： ✨下载 Llama3 模型通过 OpenXLab 下载 Llama-3-8B-Instruct 这个模型或者软链接 InternStudio 中的模型 🛠️安装 OpenCompass 运行结果为：📂 数据准备运行结果为：数据集共85个目录，1062个文件。查询Llama 的配置文件路径 🏗️命令行快速评测以C-Eval_gen为例：命令解析：查询gpu情况，设置export CU

使用Tiktoken分割文本：优化语言模型的输入处理

afTFODguAKBF的博客

11-27

523

通过正确地使用tiktoken及其相关工具，你可以有效地分割文本并优化语言模型的输入处理。LangChain 文档。

TikTokenizer 开源项目教程

gitblog_00718的博客

08-21

565

TikTokenizer 开源项目教程 tiktokenizerOnline playground for OpenAPI tokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer 项目介绍 TikTokenizer 是一个基于 Python 的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快...

推荐项目：Tiktokenizer - 精确的OpenAI提示令牌计算器

gitblog_00089的博客

05-23

1270

如何利用Token分割文本以优化大型语言模型的使用

afTFODguAKBF的博客

10-22

466

分词是处理自然语言的重要步骤。有多种工具和库可供选择，如tiktoken、spaCy、NLTK等，它们各有优缺点。选择合适的分词工具可以有效提高文本处理的效率和精确度。spaCy 官方文档NLTK 官方文档。

大模型：文本分割模型

m0_37559973的博客

06-13

3595

BERT文本分割-中文-通用领域(nlp_bert_document-segmentation_chinese-base)，该模型基于wiki-zh公开语料训练，对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。

ChatGPT丨使用tiktoken计算tokens

伍婷的专栏

06-15

2573

现在我们使用tiktoken来计算对应的tokens，tiktoken是OpenAI开源的一个快速分词工具。它将一个文本字符串（例如“tiktoken很棒！”）和一个编码（例如“cl100k_base”）作为输入，然后将字符串拆分为标记列表（例如["t"，"ik"，"token"，" is"，" great"，"!"]）。编码编码指定如何将文本转换为tokens。不同的模型使用不同的编码。可以使用...

TikToken-Go Tokenizer 项目常见问题解决方案

gitblog_01102的博客

12-13

460

TikToken-Go Tokenizer 项目常见问题解决方案 tokenizer Pure Go implementation of OpenAI's tiktoken tokenizer 项目地址: https://gitc...

NLP（五十五）tiktoken的使用

山阴少年

06-01

1万+

本文介绍了tiktoken模型和它的简单使用，以及token数量计算方式。

第三篇：ChatGPT背后强大而神秘的力量，用最简单的语言讲解Transformer架构之Tokenizer

2402_82802238的博客

03-18

1239

本系列文章致力于用最简单的语言讲解Transformer架构，帮助朋友们理解它的强大力量，本文是第三篇：分词（Tokenizer）；在上一篇文章Embedding中，我们介绍了Transformer架构中的Embedding，它将输入的文本转换为模型可以理解的数字向量，而分词是Embedding之前非常重要的一个步骤。

tiktoken原理以及如何离线环境使用

最新发布

03-17

### 如何在离线模式下使用 TikToken TikToken 是 OpenAI 提供的一个高效分词工具库，主要用于处理文本数据并将其转化为 token 形式以便于模型理解。然而，在某些情况下可能无法联网访问其默认的远程资源文件 `cl100k_base.tiktoken`。为了支持离线环境下的正常运行，可以通过手动下载该文件并调整代码逻辑来加载本地版本。 #### 下载必要资源首先需要从指定链接获取编码表文件，并保存到本地路径中： ```bash wget https://openaipublic.blob.core.windows.net/encodings/cl100k_base.tiktoken -O cl100k_base.tiktoken ``` 此命令会将所需的 `.tiktoken` 文件存储至当前目录[^1]。 #### 修改读取函数以适应离线场景通过自定义 `read_file()` 函数可以实现对本地缓存的支持。以下是经过改进后的实现方案： ```python import os import hashlib def read_file(): # 定义原始Blob地址用于生成唯一标识符 blobpath = "https://openaipublic.blob.core.windows.net/encodings/cl100k_base.tiktoken" # 创建SHA-1哈希值作为缓存键名 cache_key = hashlib.sha1(blobpath.encode()).hexdigest() # 设置缓存根目录位置 (可根据实际需求更改) cache_dir = "./temp_cache" if not os.path.exists(cache_dir): # 如果不存在则创建对应文件夹 os.makedirs(cache_dir) # 组合完整目标路径 cache_path = os.path.join(cache_dir, cache_key) try: # 尝试打开已存在的本地副本 with open(cache_path, "rb") as f: data = f.read() except FileNotFoundError: raise Exception(f"The required file {cache_path} does not exist. Please ensure it has been downloaded correctly.") return data ``` 上述脚本片段展示了如何构建一个健壮的数据检索机制[^3]。它优先尝试定位预置好的二进制资料；如果未能成功，则抛出异常提示用户完成初始化步骤。 #### 实际应用中的调用示例当一切准备就绪之后，就可以像平常一样导入 tiktoken 并利用这些配置来进行进一步操作了: ```python import tiktoken encoding = tiktoken.Encoding(name="cl100k_base", pat_str=None, mergeable_ranks=read_file(), special_tokens={}) text = "This is an example sentence." tokens = encoding.encode(text) print(tokens) decoded_text = encoding.decode(tokens) print(decoded_text) ``` 这里我们显式传递由前面定义的方法返回的结果给 Encoding 构造器参数列表里的 `mergeable_ranks` 字段。 ---