一文读懂Token,大模型为什么要按token计费

Token的概念

在大型语言模型中,"Token"可以被理解为文本中的一个基本单位,它是计算机处理和理解语言的起点。每个Token可以是一个单词、一个字符、或者一个子词(subword),具体取决于所使用的分词方法。

CSDN上大批作者测算 1000个token大约相当于750个英文单词。1个 token大概是 0.75个单词。

图片

Token的编码形式

每个Token在模型中会被转换成一个数字ID,这些ID对应于模型的词汇表中的条目。模型通过这些ID来处理文本数据。

  • 原句:“I have a dream.”
  • Token化:[“I”, “have”, “a”, “dream.”]
  • 数字ID化:[40, 617, 264, 8063, 13]

图片

为什么要使用 Token

对于 ChatGPT 等生成式AI来说,“Token”扮演着至关重要的角色。大模型不是直接做的“字符”的计算,而是将字符变成一个数字,也就是变成了 Token 来处理。

中文和英文的略有区别

  1. 英文中的Token:

Token通常是一个单词或者标点符号:在英文中,Token经常与单词一一对应。例如,句子 “The quick brown fox jumps over the lazy dog.” 中的每个单词都是一个Token。

图片

  • Token可以是词的一部分:在某些情况下,如果单词太长或模型的词汇表大小有限,单词可能会被进一步分解成更小的部分。例如,一个非常长的医学术语可能会被分解成多个Token。

例如非常长的医学术语 “antidisestablishmentarianism”,这个词意为“反对政教分离主义”。这个单词非常长,可能超出了某些语言模型的词汇表范围。

图片

让我们再看一个例子,单词 “unhappiness”。

图片

  1. 中文中的Token:
  • Token可以是一个汉字:在某些情况下,尤其是在字符级别的模型中,一个Token可能就是一个单独的汉字。
  • Token可以是词组:在大多数情况下,一个Token可能是由多个汉字组成的词组。例如,"一个Token可能是由多个汉字组成的词组。“中的"一个”,“可能”可以被视为一个Token。

图片

  • 中文和英文的词汇表大小可能不同,这可能影响Token的生成方式和计费。

  • 不一样的模型,Token 的计数也有差异。例如,我们放到“ERNIE-4.0-8K”模型中,他token数有明显的不同。

图片

Token计费

ChatGPT4 API 的价格采用了基于每 1000 个 Token 的定价标准,分为输入端和输出端:

  • 输入端: 每 1000 个 Token 收费 0.03 美元
  • 输出端: 每 1000 个 Token 收费 0.06 美元

通义千问计费单价

模型服务模型规格输入(input)价格输出(output)价格
Qwen-Longqwen-long0.0005元/1,000 tokens0.002元/1,000 tokens
通义千问-Turboqwen-turbo0.002元/1,000 tokens0.006元/1,000 tokens
qwen-turbo-0624
qwen-turbo-0206
通义千问-Plusqwen-plus0.004元/1,000 tokens0.012元/1,000 tokens
qwen-plus-0624
qwen-plus-0206
通义千问-Maxqwen-max0.04元/1,000 tokens0.12元/1,000 tokens
qwen-max-04280.04元/1,000 tokens
qwen-max-04030.04元/1,000 tokens
qwen-max-01070.04元/1,000 tokens
qwen-max-12010.12元/1,000 tokens
qwen-max-longcontext0.04元/1,000 tokens

文心大语言模型

模型子项单价
ERNIE 4.0 Turbo系列输入0.03元/千tokens
输出0.06元/千tokens
ERNIE 4.0系列输入0.04元/千tokens
输出0.12元/千tokens
ERNIE 3.5系列输入0.004元/千tokens
输出0.012元/千tokens
ERNIE Speed系列输入免费
输出免费
tokenizer公有云在线调用:ERNIE-Bot系列大模型token长度计算接口-0.0006元/千tokens
ERNIE Lite系列输入免费
输出免费
ERNIE-3.5-128k输入0.008元/千tokens
输出0.024元/千tokens
ERNIE Tiny系列输入免费
输出免费
ERNIE-Character系列输入0.004元/千tokens
输出0.008元/千tokens
ERNIE Function系列输入0.004元/千tokens
输出0.008元/千token

Token测试工具

  • OpenAI 官方的 “tokenizer”:https://platform.openai.com/tokenizer
  • https://tiktoken.aigc2d.com/

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值