deepseek token计费分析与使用策略

qq_30178745

已于 2025-01-30 20:53:39 修改

阅读量2w

点赞数 43

分类专栏： deepseek使用与分析文章标签：人工智能策略模式 AI编程

于 2025-01-28 23:02:29 首次发布

本文链接：https://blog.csdn.net/qq_30178745/article/details/145389208

版权

deepseek使用与分析专栏收录该内容

11 篇文章

订阅专栏

deepseek token计费分析

大模型的计费方式都是依据token来计算，但大部分人都没有好好研究过这个token的计算方式，弄清楚token计费方式才能更好使用大模型并控制成本。
下表是deepseek api 的收费方式：
在这里插入图片描述
根据官方消息：表格中展示了优惠前与优惠后的价格。即日起至北京时间 2025-02-08 24:00，所有用户均可享受 DeepSeek-V3 API 的价格优惠。在此之后，模型价格将恢复至原价。DeepSeek-R1不参与优惠。因此有需求的话还是赶在涨价前买，deepseek提价是迟早的事。

token 原理

token实质是将字符转化为大模型认识的数据的一种方式，类似于单词的词元。官方解释如下：token 是模型用来表示自然语言文本的基本单位，也是deepseek的计费单元，可以直观的理解为“字”或“词”；通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。
一般情况下模型中 token 和字数的换算比例大致如下：
1 个英文字符 ≈ 0.3 个 token。
1 个中文字符 ≈ 0.6 个 token。
但因为不同模型的分词不同，所以换算比例也存在差异，每一次实际处理 token 数量以模型返回为准，您可以从返回结果的 usage 中查看。
对官方token例程进行改造，可以得到具体的值：

python deepseek_tokenizer.py --text "输入文本,dfafgagd,中国"

结果 #1:
------------------------------
文本: 输入文本,dfafgagd,中国
Token 数量: 9
Token ID 列表: [8979, 18804, 14, 5920, 2797, 73, 117308, 14, 2069]
解码验证: 输入文本,dfafgagd,中国
------------------------------

因此这句话的token数为9.
相关程序与deepseek_tokenizer分析可见以下链接，同时该文章中还加入了费用估算
deepseek_v3_tokenizer 使用与分析
 代码例程

缓存命中与缓存未命中

它输入价格中分为缓存命中与缓存未命中，具体是怎么回事了?
缓存命中是计算机领域的一个核心概念，指当系统接收到数据请求时，所需数据已存在于缓存（Cache）中，无需从原始数据源（如数据库、API接口）重复获取。这一机制能显著提升响应速度并降低资源消耗

在 DeepSeek API 中的缓存命中场景
假设用户多次发送相同或相似的问题给模型：
首次请求：

用户提问 → 调用 DeepSeek API → 生成回答（消耗输入+输出 Token）。

将问题+回答存入缓存（例如以问题内容的哈希值为 Key）。

后续相同请求：

用户再次提问 → 检查缓存是否存在该问题 → 缓存命中 → 直接返回缓存的回答（不消耗 Token）。

若缓存过期或问题变化 → 缓存未命中 → 重新调用 API。

因此缓存是否命中关键在于deepseek是否被询问到之前的问题。

token费用计算公式

根据deepseek定价可以得出如下计算公式

总成本 = 输入成本（含缓存） + 输出成本

输入成本（缓存命中） = 输入 Tokens × 缓存命中单价

输入成本（缓存未命中） = 输入 Tokens × 缓存未命中单价

输出成本 = 输出 Tokens × 输出单价

假设请求量为 1,000,000 Tokens，缓存命中率为 80%：
(1) 使用 deepseek-chat 模型
计费项计算逻辑费用
输入（缓存命中 80%） 1M × 80% × 0.5 元 0.4 元
输入（缓存未命中 20%） 1M × 20% × 0.1 元 0.02 元
输出（假设生成 50%） 1M × 50% × 2 元 1 元
总成本 0.4 + 0.02 + 1 = 1.42 元
(2) 使用 deepseek-reasoner 模型
计费项计算逻辑费用
输入（缓存命中 80%） 1M × 80% × 1 元 0.8 元
输入（缓存未命中 20%） 1M × 20% × 4 元 0.8 元
输出（假设生成 50%） 1M × 50% × 16 元 8 元
总成本 0.8 + 0.8 + 8 = 9.6 元

成本优化策略

1.动态模型路由根据任务复杂度自动选择模型（如简单问答 → chat，复杂分析 → reasoner）。
2.输出长度限制通过 max_tokens 参数限制生成内容，减少输出 Token 消耗。
3.缓存分层设计高频数据用内存缓存（如 Redis），低频数据用磁盘缓存，降低存储成本。
4.请求合并去重对相似请求合并处理（如批量问答），减少重复调用。