【AIGC】大语言模型千问、gpt、智谱token计算-tiktoken、get_tokenizer等

Code_LT

已于 2024-07-26 18:43:01 修改

阅读量2.5k

点赞数 7

分类专栏： AIGC 文章标签： AIGC 语言模型 gpt

于 2024-07-26 18:34:32 首次发布

本文链接：https://blog.csdn.net/Code_LT/article/details/140721869

版权

一、token计算

编码（encode）是指将文本映射为token的数字列表，解码（decode）是指将token的数字列表转化为文本。

给定一个文本字符串（例如"tiktoken is great!"）和编码算法方式cl100k_base，可以分词为["t", "ik", "token", " is", " great", "!"]，再根据词典查出数字列表[122,232,5343,3424,5456,12446]。

注意，各大模型一般都提供了计算token数的工具，可在调用模型前先计算token。原因：

避免token过长，引发错误
可用来预估自己的花费

1.1 OpenAI

gpt系列都可用tiktoken实现token计算

import tiktoken
# 具体tokenizer模型
enc = tiktoken.get_encoding("o200k_base")
assert enc.decode(enc.encode("hello world")

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Code_LT

关注关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

3.14 掌握 Token 数量计算：使用 Tiktoken 轻松了解模型输入输出

yonggeit的博客

01-19

373

Tiktoken是OpenAI提供的一个轻量级库，用于计算文本中的token数量，特别适用于GPT模型。计算token数量对于理解文本如何被模型处理非常重要，因为模型的输入和输出都会受到token数量的限制。以下是使用tiktoken。

【人工智能】使用tiktoken库来计算tokens数量，tiktoken由 OpenAI 提供的，主要用于与他们的 API 交互时估计 token 的数量。

本本本添哥

01-22

521

是一个用于计算文本编码为特定模型的 tokens 数量的库是由 OpenAI 提供的，主要用于与他们的 API 交互时估计 token 的数量。以下是如何使用来计算 token 数量的基本步骤：您可以通过 pip 安装 tiktoken 库。 2.2. 导入必要的模块并初始化编码器：使用时，您需要选择一个编码方式。这通常取决于您打算使用的语言模型。例如，对于或模型，您可以使用编码器。 2.3. 对文本进行编码并计算 token 数量：接下来，您可以将您的文本字符串传递给编码器，并计

参与评论您还未登录，请先登录后发表或查看评论

Python 使用 tiktoken 计算 token 数量

weixin_40378209的博客

10-17

1539

Python 使用 tiktoken 计算 token 数量

【Python】tiktoken 库：OpenAI 开发的快速字节对编码（Byte Pair Encoding, BPE）分词器库

最新发布

彬彬侠的博客

05-08

886

tiktoken 是一个由 OpenAI 开发的快速字节对编码（Byte Pair Encoding, BPE）分词器库，专门为 OpenAI 的语言模型（如 GPT-3、GPT-4）设计。它用于将文本转换为模型可处理的 token（标记），并支持 token 计数、编码和解码操作。tiktoken 以高效性和速度著称，广泛应用于自然语言处理（NLP）、API 成本估算和输入验证。

AI大模型应用开发实践：3.使用 tiktoken 计算 token 数量

Hugo的博客

05-23

3049

tiktoken是OpenAI开发的一种BPE分词器。给定一段文本字符串（例如，）和一种编码方式（例如，），分词器可以将文本字符串切分成一系列的token（例如，将文本字符串切分成token非常有用，因为GPT模型看到的文本就是以token的形式呈现的。知道一段文本字符串中有多少个token可以告诉你（a）这个字符串是否对于文本模型来说太长了而无法处理，以及（b）一个OpenAI API调用的费用是多少（因为使用量是按照token计价的）。

torchtext.data.utils.get_tokenizer的用法

无聊写写~

10-08

5111

torchtext.data.utils.get_tokenizer的用法 get_tokenizer函数的作用是创建一个分词器，将语料喂给相应的分词器，可以根据不同分词函数的规则完成分词，分词器支持’basic_english’，‘spacy’，‘moses’，‘toktok’，‘revtok’，'subword’等规则。其中basic_english是可以直接使用的，spacy需要使用到spacy模块，moses需要使用到sacremoses模块，toktok需要使用到nltk模块，revtok和su

大模型的token到底表示了多少文本（形象快速入门）

nangonghen的博客

02-16

873

一个token到底表示多少文本

【学习心得】Python好库推荐——tiktoken

qq_39780701的博客

11-13

769

tiktoken是一个快速BPE分词器，它用于两个重要功能：1、文本编码与解码；2、统计Tokens数量。

[论文笔记] tiktoken中的gpt4 tokenizer

心宝的博客

11-29

615

gpt-tokenizer - npmGitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.GitHub - weikang-wang/ChatGPT-Vocabulary: cl100k_base Vocabulary of ChatGPT and GPT-4ChatGPT 与 GPT-4 tokenizer 揭秘 - 知乎NLP（五十五）tiktoken的使用_山阴少年的博客-CSD

LLM-微调：Peft库--get_peft_model()--＞在llm基座模型的基础上注入Lora模块（加载流程）【注入的Lora模块的初始参数是随机初始化的】

u013250861的博客

10-22

1794

【代码】LLM-微调：Peft库--get_peft_model()函数【在llm基座模型的基础上加载Lora模块（Lora模块的初始参数是随机初始化的）】

GPT3：语言模型在命名实体识别中的应用(GPT3:Applicationof GPT 3 in Named Entity Recognition

AI天才研究院

07-26

2910

自然语言处理（NLP）是计算机科学的一个研究领域，旨在从文本或其他形式的语言中提取结构化信息并进行分析、理解、存储和处理等一系列任务。随着深度学习技术的不断推进，近年来基于神经网络的语言模型也逐渐火爆起来，实现了强大的预测能力。虽然传统的机器学习方法已经能够胜任很多复杂任务，但对于一些特定的任务，依靠传统的方法往往存在一些局限性，例如：对长文本的命名实体识别。今天，通过命名实体识别，我们可以对输入的文本中潜藏的主题及其相关的术语进行分类、定位、识别。

探索未来文本处理的利器：`tiktoken`

gitblog_00025的博客

06-20

497

探索未来文本处理的利器：tiktoken tiktokenJS port and JS/WASM bindings for openai/tiktoken项目地址:https://gitcode.com/gh_mirrors/tik/tiktoken tiktoken 是一个强大的字节对编码（BPE）分词器，专为配合OpenAI模型设计，特别是针对JavaScript和WASM环境进行了优化。这...

Py之tiktoken：tiktoken的简介、安装、使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

10-19

1万+

Py之tiktoken：tiktoken的简介、安装、使用方法之详细攻略目录 tiktoken的简介 tiktoken的安装 tiktoken的使用方法 tiktoken的简介 tiktoken是一个用于OpenAI模型的快速BPE标记器。 1、性能：tiktoken比一个类似的开源分词器快3到6倍 tiktoken的安装 pip install tiktoken pip install -i https://pypi.tuna.tsinghua.edu.cn/simple

OpenAI的编码方式Tiktoken

choose_c的博客

07-31

2208

以上的不一致问题只会出现在messages中的message包含了name关键, 也就是说在使用function这个role的时候才会发生，并且每添加一个有function的message，最后的token差距增加2。所以可以看出问题应该是出现在role为function的message环节的计算上，我猜测是gpt-3.5-turbo-0613模型使用了和gpt-3.5-turbo-0301一样的tokens_per_name，使用了-1而不是1，所以会出现2的差距。

快讯：智谱 AI 大模型 GLM-4-Plus 赠送一亿免费Token

俺滴的博客

10-13

1721

智谱 AI 推出了新的大模型 GLM-4-Plus，并在国内外大模型排行榜上位列前三。该模型在语言理解、指令遵循和长文本处理方面表现出色，与GPT-4 和 Llama3.1 相媲美。性能提升：GLM-4-Plus 在多个领域实现了显著的性能提升。排行榜表现：在9月份的SuperBench评估中，GLM-4-Plus 跻身前三强，标志着国内大模型技术的重大突破。特别促销活动：10月份提供1亿token的免费使用额度，有助于公司节省成本。

OpenAI - tiktoken ⏳ | fast BPE tokeniser

AI工程化、开源分享、文档翻译、代码笔记

03-31

8161

关于 ⏳ tiktoken 性能表现安装 tiktoken 如何计算 token Encodings Tokenizer libraries 对不同编程语言的支持 How strings are typically tokenized 使用编解码比较 encodings 计算chat API调用的tokens 拓展 tiktoken

【通义千问】Qwen从本地加载分词器报错‘‘tokenizer class not exist‘‘的解释和处理办法

weixin_46481662的博客

10-08

7403

在尝试将模型文件从 [Hugging Face Model Hub](https://huggingface.co/Qwen/Qwen-7B-Chat/tree/main) 下载到本地并使用 `from_pretrained` 方法加载本地磁盘上的分词器时，遇到了一个错误。

NLP（五十五）tiktoken的使用