deepseek_v3_tokenizer 使用与分析

deepseek_v3_tokenizer 使用与分析

deepseek官方发布了该 token计算例程,可以根据该例程评估 输入与输出的token值,并根据费率评估出费用。
该例程下载链接如下
deepseek_v3_tokenizer

deepseek_v3_tokenizer 解析

下载解压缩得到如下内容:
在这里插入图片描述
核心文件为deepseek_v3_tokenizer.py

# pip3 install transformers
# python3 deepseek_tokenizer.py
import transformers

chat_tokenizer_dir = "./"

tokenizer = transformers.AutoTokenizer.from_pretrained( 
        chat_tokenizer_dir, trust_remote_code=True
        )

result = tokenizer.encode("Hello!")
print(result)

使用 transformers.AutoTokenizer.from_pretrained() 方法并指定一个本地目录时,该目录应该包含一个有效的 tokenizer 文件夹结构。需要有一个由 Hugging Face Transformers 库训练或下载的 tokenizer 文件夹,其中包含所有必要的配置文件(tokenizer_config.json)该文件就是token划分的依据。
该脚本仅仅计算了Hello!的token值,应用起来局限性很大,需要进行相关改造支持更多的输入形式。

deepseek_v3_tokenizer 使用步骤

  1. 在下载的目录打开cmd
    在这里插入图片描述
  2. 安装python执行环境
    在Windows系统下安装Python执行环境,您可以按照以下步骤进行:
    一、下载Python安装包
    打开浏览器,访问Python的官方网站:python.org。
    在网站首页,找到并点击“Downloads”链接。
    在下载页面中,选择适合Windows系统的Python版本。通常建议选择较新版本的Python 3系列,因为Python 2已经在2020年停止支持。
    根据您的系统是32位还是64位,选择合适的安装程序。一般x86表示32位,x86-64或amd64表示64位。
    二、安装Python
    运行下载好的安装程序(.exe文件)。
    在安装向导的第一个界面,勾选“Add Python to PATH”选项。这一步很重要,因为它会将Python的安装路径添加到系统的PATH环境变量中,这样您就可以在命令行中直接使用Python命令了。
    点击“Customize installation”进行自定义安装,或者点击“Install Now”进行默认安装。如果您选择自定义安装,可以查看并选择要安装的组件。
    在“Optional Features”(可选功能)界面,通常保持默认设置即可。
    选择安装路径。您可以使用默认路径,也可以点击“Browse”自定义安装路径。
    点击“Install”开始安装。等待安装过程完成。
    三、验证安装
    打开命令提示符(可以通过在搜索栏输入“cmd”并回车打开)。
    在命令提示符中输入“python --version”(不含引号),如果安装成功,将会显示Python的版本号,例如“Python 3.x.x”。
    四、安装pip(通常已包含)
    Python 3.4及更高版本通常自带pip,这是Python的包管理器,用于安装和管理Python包。
    在这里插入图片描述
  3. 安装依赖库
pip install transformers tokenizers
  1. 执行python脚本
 python deepseek_tokenizer.py

得到如下结果:

PS C:\deepseek\deepseek_v3_tokenizer\deepseek_v3_tokenizer> python deepseek_tokenizer.py --text "hello!"

结果 #1:
------------------------------
文本: hello!
Token 数量: 2
Token ID 列表: [33310, 3]
解码验证: hello!
------------------------------

deepseek_v3_tokenizer 脚本改进

对 deepseek_v3_tokenizer 脚本进行改进,加入文件读取,验证等功能,得到如下输入样式与结果。将input.txt放在该目录下执行

python deepseek_tokenizer.py --input_file input.txt

在这里插入图片描述

费用计算

修改脚本得到token_cost_calculator.py。
根据deepseek的价格可以进行计算

python token_cost_calculator.py --input_file input.txt --model_output_file model_output.txt --cache_hit_ratio 0.7 --output_file result.txt

在这里插入图片描述

相关代码链接可见
deepseek_v3_tokenizer_kun_fix
gitcode仓库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值