你可能还不知道ChatGPT Token与字数的关系

最新推荐文章于 2025-02-24 14:50:04 发布

Coding的叶子

最新推荐文章于 2025-02-24 14:50:04 发布

阅读量1w

点赞数 27

分类专栏： chatgpt python 文章标签： chatgpt token python gpt

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/suiyingy/article/details/134673449

版权

python 同时被 2 个专栏收录

89 篇文章

订阅专栏

chatgpt

11 篇文章

订阅专栏

在探索自然语言处理和语言模型的领域中，Token是一个重要的概念。它在处理文本数据时扮演着关键的角色，对于理解语言模型的工作原理至关重要。本文将介绍Token的概念，并探讨Token与字数之间的关系。

通常情况下，我们在估算字数和token之间的比例关系为1:1，且中文的比例关系为1:2。除了估算之外，本文也会提供python计算程序，以便进行验证。我们将会看到这个比例会随着模型的不同而可能会存在较大差异。

本文主要分为以下部分进行介绍：token定义、Token与字数的关系、ChatGPT token和Token数量计算示例程序。

1 什么是Token

在计算机科学和自然语言处理中，Token是对文本进行切分和组织的最小单位。可以将Token视为单词、短语或其他文本片段的抽象表示。在语言模型中，Token可以是字、词、子词或更大的语言单元。以英文为例，一个Token可以对应一个字母、一个单词（如“apple”），或者是一个子词（如“un”和“happy”组合成“unhappy”）。通过将文本分割成Token，语言模型可以更好地理解和处理文本数据。

2 Token与字数的关系

在语言模型中，Token的数量与字数之间存在着一定的关系。通常情况下，一个Token对应一个单词，因此Token的数量与文本中的字数相等。例如，一句包含10个单词的英文句子将被划分为10个Token。然而，在某些情况下，使用子词或其他更小的语言单元作为Token可以更好地处理文本数据。

将文本划分为Token有助于加速计算和提高模型的效率。在处理大规模的文本语料库时，Token的数量可能会非常庞大，因此通过将文本划分为Token，可以减少模型的计算负担。另外，Token的使用还有助于在不同语言之间进行对比和跨语言处理。

3 ChatGPT token

在ChatGPT中，Token与字数的关系也是非常重要的。ChatGPT是一种基于GPT (Generative Pre-trained Transformer)的自然语言生成模型，它将输入的文本数据切分为Token序列，并将其输入到Transformer网络中进行处理。

与传统的NLP任务不同，ChatGPT的主要目标是生成具有连贯性和逻辑性的回复，而不是对输入进行分类或标注。因此，在ChatGPT中，Token的数量与输入文本的长度没有必然的关系。

举个例子，如果用户输入一句话：“今天天气不错”，ChatGPT将根据先前的训练经验将其切分为三个Token：“今天”、“天气”和“不错”。但如果用户输入一段较长的话，如：“今天天气真是太好了，阳光明媚，空气清新，让人感觉心情愉悦”，ChatGPT可能会将其切分为更多的Token，以便更好地捕捉其含义和语义。

总的来说，ChatGPT中Token与字数的关系是灵活的，取决于输入的文本内容和上下文信息。ChatGPT通过切分和组织文本数据的方式来生成连贯和合理的回复，从而实现了人机对话的自然流畅。

4 Token数量计算

Python Token数量计算库为tiktoken，python版本需要至少为3.8，否则无法安装。安装的时候，我们最好选择最新的版本。这是因为早期版本只支持到GPT3，而不支持GPT3.5及其以后的模型。安装方式如下：

pip install tiktoken
Pip install -U titoken

我们下面的示例中可以看到，在gpt2、gpt3的中文字数与token数量比例确实接近1:2，而gpt3.5和gpt4中这个比例甚至不到1:1。原因可以参考前两节介绍。

示例程序如下：

import tiktoken

if __name__ == '__main__':
    prompt = 'RdFast智能创作机器人小程序中可以体验最新的大模型效果，包括智能文案创作、智能编辑、高清图片和高清logo生成等。' * 100
    print(f'prompt字数为：{len(prompt)}')
    models = ['gpt2', 'text-davinci-003', 'gpt-3.5-turbo', 'gpt-4']
    for m in models:
        encoding = tiktoken.encoding_for_model(m)
        tokens = encoding.encode(prompt)
        numtokens = len(tokens)
        print(f'{m} tokens数量为：{numtokens}')

示例结果为：

prompt字数为：5900
gpt2 tokens数量为：11100
text-davinci-003 tokens数量为：11100
gpt-3.5-turbo tokens数量为：5400
gpt-4 tokens数量为：5400

Tiktoken所支持的模型可以在其model.py文件中查看，如下所示。

MODEL_PREFIX_TO_ENCODING: dict[str, str] = {
    # chat
    "gpt-4-": "cl100k_base",  # e.g., gpt-4-0314, etc., plus gpt-4-32k
    "gpt-3.5-turbo-": "cl100k_base",  # e.g, gpt-3.5-turbo-0301, -0401, etc.
    "gpt-35-turbo-": "cl100k_base",  # Azure deployment name
    # fine-tuned
    "ft:gpt-4": "cl100k_base",
    "ft:gpt-3.5-turbo": "cl100k_base",
    "ft:davinci-002": "cl100k_base",
    "ft:babbage-002": "cl100k_base",
}

MODEL_TO_ENCODING: dict[str, str] = {
    # chat
    "gpt-4": "cl100k_base",
    "gpt-3.5-turbo": "cl100k_base",
    "gpt-35-turbo": "cl100k_base",  # Azure deployment name
    # base
    "davinci-002": "cl100k_base",
    "babbage-002": "cl100k_base",
    # embeddings
    "text-embedding-ada-002": "cl100k_base",
    # DEPRECATED MODELS
    # text (DEPRECATED)
    "text-davinci-003": "p50k_base",
    "text-davinci-002": "p50k_base",
    "text-davinci-001": "r50k_base",
    "text-curie-001": "r50k_base",
    "text-babbage-001": "r50k_base",
    "text-ada-001": "r50k_base",
    "davinci": "r50k_base",
    "curie": "r50k_base",
    "babbage": "r50k_base",
    "ada": "r50k_base",
    # code (DEPRECATED)
    "code-davinci-002": "p50k_base",
    "code-davinci-001": "p50k_base",
    "code-cushman-002": "p50k_base",
    "code-cushman-001": "p50k_base",
    "davinci-codex": "p50k_base",
    "cushman-codex": "p50k_base",
    # edit (DEPRECATED)
    "text-davinci-edit-001": "p50k_edit",
    "code-davinci-edit-001": "p50k_edit",
    # old embeddings (DEPRECATED)
    "text-similarity-davinci-001": "r50k_base",
    "text-similarity-curie-001": "r50k_base",
    "text-similarity-babbage-001": "r50k_base",
    "text-similarity-ada-001": "r50k_base",
    "text-search-davinci-doc-001": "r50k_base",
    "text-search-curie-doc-001": "r50k_base",
    "text-search-babbage-doc-001": "r50k_base",
    "text-search-ada-doc-001": "r50k_base",
    "code-search-babbage-code-001": "r50k_base",
    "code-search-ada-code-001": "r50k_base",
    # open source
    "gpt2": "gpt2",
}

Token是语言模型中的重要概念，用于对文本数据进行切分和组织。它可以表示单词、字、子词或其他语言单元。Token的数量通常与文本中的字数相等，但也可以灵活地根据需求进行调整。通过理解Token的概念和与字数的关系，我们可以更好地利用语言模型来处理文本数据，并推动自然语言处理领域的发展。