【NLP基础知识系列课程-Tokenizer的前世今生第一课】Tokenizer 是什么？为什么重要？

最新推荐文章于 2025-05-28 16:28:26 发布

AI让世界更懂你

最新推荐文章于 2025-05-28 16:28:26 发布

阅读量626

点赞数 18

分类专栏： NLP基础知识系列课程文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/qq_35082030/article/details/148266639

版权

5 篇文章

订阅专栏

我们都知道模型要处理文本，第一步是把一段段字符变成“token”。但这些 token 究竟应该是句子、单词，还是更小的片段，比如“un + break + able”？

这背后涉及的是一个非常核心的问题：我们到底用什么单位来让模型“看懂”语言？这个单位，就叫做 token，而设计这个单位的方式，就是 tokenizer。

Tokenizer 就像语言世界的切割刀，它决定了模型从多大、从哪里开始理解文本。粗了，信息不够细；细了，理解变得困难。

我们不妨打个比方：如果把语言模型比作人脑，那 tokenizer 就是它的“眼睛”。一双合适的眼睛，能帮助我们快速捕捉信息；而模糊不清的视野，只会增加理解的负担。

当你读到“unbelievable”，你可以立刻意识到它是“un + believe + able”构成的，这种构词结构能让你快速理解它的意思。如果 tokenizer 能切出这样的结构，模型自然也能更快学到“构词法”。

而如果 tokenizer 把它切成了“u + n + b + …”，模型可能就要花更多精力才能拼凑出“哦，这是一个否定+动词+形容词构成的词”。

颗粒度	示例	优点	缺点	常见应用模型
句子级	“今天天气真不错。”	结构清晰，语言自然单位	无法细致建模，严重OOV问题	早期RNN、规则模型
单词级	“unbelievable”	易懂，训练快	新词无能为力	Word2Vec、GloVe
子词级	“un + believe + able”	词表小，无OOV，语义较好	切分复杂，训练有偏	BERT, GPT, T5 等
字符级	“u + n + b + …”	跨语言能力强，无需词表	序列太长，学习难	CANINE、ByT5
字节级	“\x75 \x6e \x62 …”	统一所有输入类型，无任何限制	表达太原始，需要大模型配合	GPT-2、tiktoken
区域级（图像）	图像划分的 Patch（如ViT）	可以对图像输入统一处理	不一定与语言token天然对齐	CLIP, BLIP, Flamingo 等