文章目录
- 06|Transformer是如何处理语言的?从Token到Attention全流程拆解
- 一、我们在处理“语言”,模型在处理“Token”
- 二、全流程概览:从Token到输出
- 三、Transformer的核心组成
- 四、Self-Attention 是怎么处理Token的?
- 五、Token处理的三大关键点
- 六、结尾提示:后续结构靠Token撑起
06|Transformer是如何处理语言的?从Token到Attention全流程拆解
副标题:一段文字是如何被语言模型读懂的?从token输入到语义输出的全过程
一、我们在处理“语言”,模型在处理“Token”
人类读一句话是按顺序理解的;
语言模型读这句话,是将它切分成一连串token,并通过一套复杂但可复用的结构来处理它。
这套结构,就是 Transformer。
二、全流程概览:从Token到输出
下面是一段文字进入模型后的完整流程图解:
原始文本 → 分词器 → token序列 → token ID → embedding → Transformer → 输出token logits → 解码 → 输出文本
每一步都是模块化的,核心逻辑如下:
步骤 | 内容说明 |
---|---|
文本输入 | 如:“今天阳光很好” |
分词(tokenization) | 拆成 [“今天”, “阳”, “光”, “很”, “好”] |
转换为token ID | 每个token对应一个整数编号 |
Embedding查表 | 将ID映射为向量(如4096维) |
Transformer处理 | 多层 self-attention 提取语义特征 |
输出预测 | 预测下一个token(如:“。”) |
三、Transformer的核心组成
Transformer的两个核心结构:
- Embedding层:接收token ID,查表转为向量;
- Self-Attention层(注意力机制):每个token“关注”其他token,对其上下文建模。
每一层的操作逻辑类似于:
输入 → 多头注意力 → 残差连接 → LayerNorm → 前馈网络 → 残差连接 → LayerNorm
重复若干层(如GPT-3是96层)。
四、Self-Attention 是怎么处理Token的?
Self-Attention 的本质是:
让每个token根据自己与其他token的关系,调整自己的表达方式。
举例:
- 输入:“他今天很高兴”
- token:“高兴” 会强烈关注 “他”和“今天”,弱关注“很”
- 输出向量是所有相关性加权后的融合结果
这种机制让模型不仅理解单词本身,还理解它在上下文中的语义角色。
五、Token处理的三大关键点
- 并行性强:Transformer不像RNN逐字处理,它一次性处理所有token → 大幅加速;
- 上下文感知强:每个token都能“看见”上下文中的其他token;
- 结构通用:可处理翻译、对话、摘要等各种任务,仅输入输出token不同。
六、结尾提示:后续结构靠Token撑起
Transformer不是脱离token独立存在的“神经网络”,而是:
- 以token为输入;
- 以token之间的结构为计算核心;
- 最终也以token为输出单位。
理解Transformer的本质,就是在理解token如何被解码、重构、排列与预测。