ChatGPT中一个token是多少汉字?通过调用python库计算token数

一、通过官方网站查阅token与汉字的关系

大家都知道GPT是按照token收费的:

网上找到的各种资料,关于一个 token是多少汉字说法不一,今天我们就来看看到底一个token代表多少汉字。

网址是这个,大家有兴趣的可以自己上去查看。

https://platform.openai.com/tokenizer

 首先我们来看一个短句,这句话29个字符,37个token。

它能识别出“中国”“你”“我”这样的专有名词,但是对于杭州、西湖这样的是识别不出来的,甚至算token的时候略有不同。

如“杭”算了两次,“州”则只算一次。

 换一段示例,这里的字与token基本是一对一,我们也发现了如“处理”这样的词是只算一个token,但是像“擅”则占了3个token。

 

为什么会这样呢?通过与gpt进行问答,我们可以看出这个跟字符在训练集中出现的频率有关。

 gpt对英文分词效果较好,我们将上边的中文转换成英文,token少了很多,但是对于一些不熟悉的单词,它也是逐个字符进行计算。

二、通过调用python库提前统计token数 

当然你可以在自己的程序中先计算token数

Tiktoken是OpenAI开发的一个Python库。它的主要功能是查看一个给定的字符串在GPT模型中被标记化(Tokenized)为多少个标记。

在GPT和许多其他的Transformer架构的模型中,输入的文本首先会被分解(Tokenized)成更小的部分(即标记),然后这些标记会被模型处理。这些标记可以是一个单词,一个字符,或者是介于两者之间的任何东西。这取决于模型的实际实现和训练数据。

以下是一些Tiktoken的主要特性:

1. **查看标记数**:给定一个字符串,Tiktoken可以告诉你这个字符串会被分解成多少个标记。

2. **查看标记**:除了查看标记的数量,Tiktoken还可以显示具体的标记是什么。

3. **模型特定**:Tiktoken可以根据不同的模型(如GPT-2, GPT-3等)来进行标记化。

4. **计算API调用的成本**:由于OpenAI的API是按标记数计费的,所以你可以用Tiktoken提前计算出API调用的成本。

5. **开源**:Tiktoken是开源的,你可以在GitHub上找到它的源代码。

因此,如果你在使用像GPT这样的模型,并且想要更深入地理解你的输入数据是如何被模型处理的,Tiktoken是一个非常有用的工具。

# pip install tiktoken
# 定义一个函数 count_tokens,用于计算给定文本在特定语言模型下的标记数量
def count_tokens(text, model_version=4):
    # 从 model_dict 字典中,根据 model_version 参数获取相应的语言模型
    model = model_dict[model_version]
    
    # 使用 tiktoken.encoding_for_model 方法,获取该模型的标记化编码器
    encoding = tiktoken.encoding_for_model(model)
    
    # 使用编码器的 encode 方法,对输入的 text 进行标记化处理,得到一个标记列表
    tokens = encoding.encode(text)
    
    # 计算标记列表的长度,即标记的数量
    token_count = len(tokens)
    
    # 返回标记的数量
    return token_count

 

  • 12
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
当API的token失效后,您可以通过捕获特定的错误或者判断响应状态码来重新调用获取token的函。下面是一个示例代码,演示了如何在token失效后重新调用获取token的逻辑: ```python import requests def get_token(): # 在这里编写获取token的逻辑 print("获取token") # 假设获取token的API接口为getToken(),并返回一个典类型的响应 response = getToken() if response.status_code == 200: token = response.json()['token'] # 在这里进行后续的操作,使用获取到的token进行API调用 do_api_call(token) else: # 获取token失败,可以进行相应处理,例如打印错误信息或者抛出异常 print("获取token失败") def do_api_call(token): # 在这里进行API调用操作 print("执行API调用,使用token:", token) # 假设调用API的接口为apiCall(),并返回一个典类型的响应 response = apiCall(token) if response.status_code == 200: # API调用成功,可以进行相应处理 print("API调用成功") elif response.status_code == 401: # token失效,重新调用获取token print("token失效,重新获取token") get_token() else: # 其他错误情况,可以进行相应处理 print("API调用失败") # 调用获取token的函 get_token() ``` 在上面的代码,`get_token`函用于获取token,并根据响应状态码进行相应的处理。如果获取token成功,则可以继续执行后续的API调用操作(在`do_api_call`函)。如果获取token失败或者API调用返回401状态码(token失效),则会重新调用`get_token`函来获取新的token。 请根据您具体的API接口和错误处理逻辑进行适当的修改和调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值