ChatGPT丨使用tiktoken计算tokens

最新推荐文章于 2025-03-05 14:00:03 发布

伍婷

最新推荐文章于 2025-03-05 14:00:03 发布

阅读量2.5k

点赞数

文章标签： chatgpt java python 数学建模开发语言

原文链接：https://mp.weixin.qq.com/s?__biz=MzA4MjQ0ODEzMA==&mid=2247485117&idx=1&sn=86937cd613c205d2e8827e4e76afd7b7&chksm=9f84dcd0a8f355c63367d7c9d9090aa4a4a39562f723dcc4a2882dcfcfd7ab3d4b7da5c60e9f&scene=126&sessionid=0

版权

现在我们使用tiktoken来计算对应的tokens，tiktoken是OpenAI开源的一个快速分词工具。它将一个文本字符串（例如“tiktoken很棒！”）和一个编码（例如“cl100k_base”）作为输入，然后将字符串拆分为标记列表（例如["t"，"ik"，"token"，" is"，" great"，"!"]）。

编码

编码指定如何将文本转换为tokens。不同的模型使用不同的编码。

可以使用tiktoken.encoding_for_model（）检索模型的编码，如下所示：

encoding = tiktoken.encoding_for_model('gpt-3.5-turbo')

请注意，p50k_base与r50k_base重叠很大，在非代码应用中，它们通常会给出相同的tokens。

字符串通常如何进行分词

在英语中，标记的长度通常从一个字符到一个单词不等（例如“t”或“great”），尽管在某些语言中，标记可以比一个字符更短或比一个单词更长。空格通常与单词的开头分组（例如“is”而不是“ is”或“+”“is”）。您可以在OpenAI Tokenizer（https://platform.openai.com/tokenizer）上快速检查字符串的分词方式。

0. 安装 tiktoken

%pip install --upgrade tiktoken

1.引用 tiktoken

import tiktoken

2. 加载编码

使用tiktoken.get_encoding()方法按名称加载一种编码。

第一次运行此方法时，需要连接互联网下载，之后的运行将不需要网络连接。

encoding = tiktoken.get_encoding("cl100k_base")

使用tiktoken.encoding_for_model()方法，自动加载给定模型名称对应的正确编码。

encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")

3. 放入文本

.encode()方法将文本字符串转换为标记整数列表。

encoding.encode("tiktoken is great!")

4.计算调用的token消耗

通过计算.encode()方法返回的列表长度来计算tokens。

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens
    
num_tokens_from_string("tiktoken is great!", "cl100k_base")