Py之tiktoken：tiktoken的简介、安装、使用方法之详细攻略

最新推荐文章于 2025-04-14 17:43:58 发布

一个处女座的程序猿

最新推荐文章于 2025-04-14 17:43:58 发布

阅读量1w

点赞数 4

分类专栏： Python_Libraries NLP/LLMs 文章标签：自然语言处理大语言模型分词模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41185868/article/details/133931843

版权

NLP/LLMs 同时被 2 个专栏收录

765 篇文章

订阅专栏

Python_Libraries

263 篇文章

订阅专栏

本文介绍了tiktoken，一个快速的BPE标记器，其性能优于同类开源工具，文章详细讲解了tiktoken的安装步骤和基础用法，包括用于OpenAI模型的编码以及可视化BPE过程的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Py之tiktoken：tiktoken的简介、安装、使用方法之详细攻略

目录

tiktoken的简介

1、性能：tiktoken比一个类似的开源分词器快3到6倍

tiktoken的安装

tiktoken的使用方法

1、基础用法

(1)、用于OpenAI模型的快速BPE标记器

(2)、帮助可视化BPE过程的代码

tiktoken的简介

tiktoken是一个用于OpenAI模型的快速BPE标记器。

1、性能：tiktoken比一个类似的开源分词器快3到6倍

tiktoken的安装

pip install tiktoken

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken

C:\Windows\system32>pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting tiktoken
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/91/cf/7f3b821152f7abb240950133c60c394f7421a5791b020cedb190ff7a61b4/tiktoken-0.5.1-cp39-cp39-win_amd64.whl (760 kB)
     |████████████████████████████████| 760 kB 726 kB/s
Requirement already satisfied: regex>=2022.1.18 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2022.3.15)
Requirement already satisfied: requests>=2.26.0 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2.31.0)
Requirement already satisfied: charset-normalizer<4,>=2 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2.0.12)
Requirement already satisfied: urllib3<3,>=1.21.1 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (1.26.9)
Requirement already satisfied: idna<4,>=2.5 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (3.3)
Requirement already satisfied: certifi>=2017.4.17 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2021.10.8)
Installing collected packages: tiktoken
Successfully installed tiktoken-0.5.1

tiktoken的使用方法

1、基础用法

(1)、用于OpenAI模型的快速BPE标记器

import tiktoken
enc = tiktoken.get_encoding("cl100k_base")
assert enc.decode(enc.encode("hello world")) == "hello world"

# To get the tokeniser corresponding to a specific model in the OpenAI API:
enc = tiktoken.encoding_for_model("gpt-4")

(2)、帮助可视化BPE过程的代码

from tiktoken._educational import *

# Train a BPE tokeniser on a small amount of text
enc = train_simple_encoding()

# Visualise how the GPT-4 encoder encodes text
enc = SimpleBytePairEncoding.from_tiktoken("cl100k_base")
enc.encode("hello world aaaaaaaaaaaa")

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个处女座的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。