tokens通俗说

最新推荐文章于 2025-04-18 09:27:48 发布

Ai君臣

最新推荐文章于 2025-04-18 09:27:48 发布

阅读量3.1k

点赞数 23

文章标签： tokens 大语言模型推理

本文链接：https://blog.csdn.net/liuchenbaidu/article/details/136190331

版权

本文介绍了计算机和人工智能领域中token的概念，特别是在自然语言处理中的应用。讨论了分词的重要性，将其作为解决问题的数学化手段，以及在深度学习时代如何处理不同语言的词形和词性。同时，提到了Groq的LPU在加速大语言模型推理方面的优势，如Mixtral8x7B-32K模型的高速生成能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在计算机领域中，token 通常是指一串字符或符号，比如微信公众平台的密钥，就被称作一个 token，其实就是一长串的字符。

而在人工智能领域，尤其是自然语言处理(Natural Language Processing, NLP)中， "token" 指的是处理文本的最小单元或基本元素。

它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。

在 tokenization 阶段，可能会把 "New York City" 这三个单词当做一个 token，因为这三个单词合在一起具有特定的意思，叫做纽约市。

还可能把 “debug” 这个单词看作两个 token，分别为"de" 和 "bug"，这样模型可能知道 “de” 前缀代表“减少”的意思。

如果再遇到诸如 “devalue ”时，就会把它直接分为两个token，分别是 “de”和 “value”，并且可以知道 devalue 代表"减少价值"的意思。

为什么要分词？

1.将复杂问题转化为数学问题

在机器学习的文章中讲过，机器学习之所以看上去可以解决很多复杂的问题，是因为它把这些问题都转化为了数学问题。

2.词是一个比较合适的粒度

词是表达完整含义的最小单位。

字的粒度太小，无法表达完整含义，比如”鼠“可以是”老鼠“，也可以是”鼠标“。

而句子的粒度太大，承载的信息量多，很难复用。

3. 深度学习时代，部分任务中也可以「分字」

深度学习时代，随着数据量和算力的爆炸式增长，很多传统的方法被颠覆。

英文单词存在丰富的变形变换。为了应对这些复杂的变换，英文NLP相比中文存在一些独特的处理步骤，我们称为词形还原（Lemmatization）和词干提取（Stemming）。中文则不需要

词性还原：does，done，doing，did 需要通过词性还原恢复成 do。

词干提取：cities，children，teeth 这些词，需要转换为 city，child，tooth”这些基本形态

在实际中我们可用的场景下，大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens，快的一般也不会超过每秒100个tokens。

最快的推理芯片LPU

Groq公司首创了业界所谓的Language Processing Unit（LPU），目的时用来加速大语言模型的推理。从前面的测试看，Groq的LPU的确是目前最快的大语言模型推理处理器了。

而Groq的这三个模型最大的特点是速度非常快，其中Mixtral 8×7B - 32K作为一个有450多亿参数（推理时有120亿参数被使用）的模型，其生成tokens的速度最高达到每秒500个tokens左右，正常也有400多个tokens，这意味着它每秒可以生成400个单词左右，可以说是飞速生成。

模型名称	当前推理速度	每100万tokens价格 (输入/输出)	每100万tokens总价
Llama 2 70B (4096 Context Length)	~300 tokens/s	$0.70/$0.80	1.5美元
Llama 2 7B (2048 Context Length)	~750 tokens/s	$0.10/$0.10	0.2美元
Mixtral 8x7B SMoE (32K Context Length)	~480 tokens/s	$0.27/$0.27	0.54美元