【AI计费】大模型下的token是怎么计费的？

A雄

已于 2024-07-22 12:08:24 修改

阅读量3.8k

点赞数 11

文章标签：服务器 ai 人工智能

于 2024-05-13 11:14:59 首次发布

本文链接：https://blog.csdn.net/u013343616/article/details/138792212

版权

token的来源是NLP和机器学习的术语，指的是文本中的基本单位。

如果简单理解就是文字/词的个数，比如 hello world，就是2个tokens。

又比如我爱北京天安门，就是7个tokens，不同厂商的算法略有不同，可能会有子词单元。

比如定义了一些专业术语，北京，可以把这个词组当作一个整体token，标点符号也算1个token，但空格一般不算。

对于多模内容服务，比如图片生成，我们可以通过输入prompt提示语，快速生成图片，这种计算则会将图像分割成不同的小块，然后每一块通过一个线性变换映射到一个更高维度的向量，最后加上位置编码形成最终的tokens。

主要包括拆分、转换、编码等步骤，把图片想象成二维码就明白了，二维码是一堆黑白格子组成的。

比如常见的一个512x512像素的区域，会算作约170个tokens。

比如我们在某某云购买了AI接入服务，以100万tokens为例，那是不是说，可以发送100万个文字呢？

这里有个误区，首先，输入输出都是算tokens的，就像20多年前，手机双向收费一样，打电话收钱，接电话也收钱，那使用AI对话也是一样，你发出去的文字，和AI回复的内容，都是要算成tokens的，而且如果您想要更好的对话效果。

比如语言有前后连贯性，通常发送文字的时候，会将前文对话的来回内容，都再次发送给AI，因此每次消耗的tokens，远比你想象的多，以常规对话为例，我每次提问20个字，AI回复我500字，我连续提问三次，他回复三次

这时的消耗量是：

第一轮：20+500=520

第二轮：520+20+500=1040

第三轮：520+20+500=1560

…

以此类推，只要兼顾上下文，消耗量会成倍增长，因此为了节约成本，通常不会回传超过5句的上下文。

GPT-4 接口的调用费用为每 1000 个提示请求 token 花费 0.03 美元，完成响应 token 花费 0.06 美元。斯坦福大学研究员在一份论文中估算，如果是中小企业利用 GPT-4 来协助市场工作的话，每个月的成本可能超过 2.1 万美元。

虽然目前在技术水平上距离 GPT-4 有一定差距，但是相比于 GPT-4 的高昂成本，团队仍然选择了使用开源大模型作为底层模型，通过在产业中积累的行业数据以及专注在垂直场景进行输出，能够弥补一部分技术代差。

以翻译场景为例，我们可以用一个类似于开源大模型这样的开源模型去做指令微调，虽然翻译性能达到不错的程度，但是最终会发现性能上限仍然受限，因为开源大模型的某些能力是在预训练阶段获得的，所以即使你的指令、任务都是明确的，加上很多数据，但你会发现仍然不容易做到 GPT-4 的效果。

在这里插入图片描述