什么是token?
token的来源是NLP和机器学习的术语,指的是文本中的基本单位。
如果简单理解就是文字/词的个数,比如 hello world,就是2个tokens。
又比如 我爱北京天安门,就是7个tokens,不同厂商的算法略有不同,可能会有子词单元。
比如定义了一些专业术语,北京,可以把这个词组当作一个整体token,标点符号也算1个token,但空格一般不算。
对于多模内容服务,比如图片生成,我们可以通过输入prompt提示语,快速生成图片,这种计算则会将图像分割成不同的小块,然后每一块通过一个线性变换映射到一个更高维度的向量,最后加上位置编码形成最终的tokens。
主要包括拆分、转换、编码等步骤,把图片想象成二维码就明白了,二维码是一堆黑白格子组成的。
比如常见的一个512x512像素的区域,会算作约170个tokens。
token的双向计费
比如我们在某某云购买了AI接入服务,以100万tokens为例,那是不是说,可以发送100万个文字呢?
这里有个误区,首先,输入输出都是算tokens的,就像20多年前,手机双向收费一样,打电话收钱,接电话也收钱,那使用AI对话也是一样,你发出去的文字,和AI回复的内容,都是要算成tokens的,而且如果您想要更好的对话效果。
比如语言有前后连贯性,通常发送文字的时候,会将前文对话的来回内容,都再次发送给AI,因此每次消耗的tokens,远比你想象的多,以常规对话为例,我每次提问20个字,AI回复我500字,我连续提问三次,他回复三次
这时的消耗量是:
第一轮:20+500=520
第二轮:520+20+500=1040
第三轮:520+20+500=1560
…
以此类推,只要兼顾上下文,消耗量会成倍增长,因此为了节约成本,通常不会回传超过5句的上下文。
企业成本
GPT-4 接口的调用费用为每 1000 个提示请求 token 花费 0.03 美元,完成响应 token 花费 0.06 美元。斯坦福大学研究员在一份论文中估算,如果是中小企业利用 GPT-4 来协助市场工作的话,每个月的成本可能超过 2.1 万美元。
虽然目前在技术水平上距离 GPT-4 有一定差距,但是相比于 GPT-4 的高昂成本,团队仍然选择了使用 开源大模型 作为底层模型,通过在产业中积累的行业数据以及专注在垂直场景进行输出,能够弥补一部分技术代差。
以翻译场景为例,我们可以用一个类似于 开源大模型 这样的开源模型去做指令微调,虽然翻译性能达到不错的程度,但是最终会发现性能上限仍然受限,因为开源大模型的某些能力是在预训练阶段获得的,所以即使你的指令、任务都是明确的,加上很多数据,但你会发现仍然不容易做到 GPT-4 的效果。