tokens通俗说

在计算机领域中,token 通常是指一串字符或符号,比如微信公众平台的密钥,就被称作一个 token,其实就是一长串的字符。

而在人工智能领域,尤其是自然语言处理(Natural Language Processing, NLP)中, "token" 指的是处理文本的最小单元或基本元素

它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。

在 tokenization 阶段,可能会把 "New York City" 这三个单词当做一个 token,因为这三个单词合在一起具有特定的意思,叫做纽约市。

还可能把 “debug” 这个单词看作两个 token,分别为"de" 和 "bug",这样模型可能知道 “de” 前缀代表“减少”的意思。

如果再遇到诸如 “devalue ”时,就会把它直接分为两个token,分别是 “de”和 “value”,并且可以知道 devalue 代表"减少价值"的意思。

为什么要分词?

1.将复杂问题转化为数学问题

在 机器学习的文章 中讲过,机器学习之所以看上去可以解决很多复杂的问题,是因为它把这些问题都转化为了数学问题。

2.词是一个比较合适的粒度

词是表达完整含义的最小单位。

字的粒度太小,无法表达完整含义,比如”鼠“可以是”老鼠“,也可以是”鼠标“。

而句子的粒度太大,承载的信息量多,很难复用。

3. 深度学习时代,部分任务中也可以「分字」

深度学习时代,随着数据量和算力的爆炸式增长,很多传统的方法被颠覆。

英文单词存在丰富的变形变换。为了应对这些复杂的变换,英文NLP相比中文存在一些独特的处理步骤,我们称为词形还原(Lemmatization)和词干提取(Stemming)。中文则不需要

词性还原:does,done,doing,did 需要通过词性还原恢复成 do。

词干提取:cities,children,teeth 这些词,需要转换为 city,child,tooth”这些基本形态

在实际中我们可用的场景下,大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens,快的一般也不会超过每秒100个tokens。

最快的推理芯片LPU

Groq公司首创了业界所谓的Language Processing Unit(LPU),目的时用来加速大语言模型的推理。从前面的测试看,Groq的LPU的确是目前最快的大语言模型推理处理器了。

而Groq的这三个模型最大的特点是速度非常快,其中Mixtral 8×7B - 32K作为一个有450多亿参数(推理时有120亿参数被使用)的模型,其生成tokens的速度最高达到每秒500个tokens左右,正常也有400多个tokens,这意味着它每秒可以生成400个单词左右,可以说是飞速生成。

模型名称当前推理速度每100万tokens价格 (输入/输出)每100万tokens总价
Llama 2 70B (4096 Context Length)~300 tokens/s$0.70/$0.801.5美元
Llama 2 7B (2048 Context Length)~750 tokens/s$0.10/$0.100.2美元
Mixtral 8x7B SMoE (32K Context Length)~480 tokens/s$0.27/$0.270.54美元

  • 21
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值