百花齐放的AI模型
自从ChatGPT横空出世
计算机进入了AI时代
国内也诞生了不少优秀的替代品
讯飞系、通义系、文心等等
国内排名最高的阿里通义
720亿参数的模型Qwen-72B
力压Llama 2等国内外开源大模型
登顶Hugging Face的开源大模型排行榜首
包括C-Eval、CMMLU、Gaokao-Bench、AGIEval等参数
更是超过了GPT-4
随之而来
各个厂商也开启了AI应用接入的服务
比如讯飞星火
早在1.0、1.5版就提供了API接入的方式
后续各个厂商也逐步对齐
讯飞注册的时候
直接赠送200万的token使用量
哪怕收费版都做到了
几毛钱购买几万tokens的使用
那么问题来了
token是什么?
是文字吗?
图片等媒体怎么算费用呢?
自然语言处理
token的来源是NLP和机器学习的术语
指的是文本中的基本单位
如果简单理解就是文字/词的个数
比如 hello world
就是2个tokens
又比如 我爱北京天安门
就是7个tokens
不同厂商的算法略有不同
可能会有子词单元
比如定义了一些专业术语
北京,可以把这个词组当作一个整体token
标点符号也算1个token
但空格一般不算