【Token系列】06|Transformer是如何处理语言的?从Token到Attention全流程拆解

文章目录

  • 06|Transformer是如何处理语言的?从Token到Attention全流程拆解
    • 一、我们在处理“语言”,模型在处理“Token”
    • 二、全流程概览:从Token到输出
    • 三、Transformer的核心组成
    • 四、Self-Attention 是怎么处理Token的?
    • 五、Token处理的三大关键点
    • 六、结尾提示:后续结构靠Token撑起

06|Transformer是如何处理语言的?从Token到Attention全流程拆解

副标题:一段文字是如何被语言模型读懂的?从token输入到语义输出的全过程


一、我们在处理“语言”,模型在处理“Token”

人类读一句话是按顺序理解的;
语言模型读这句话,是将它切分成一连串token,并通过一套复杂但可复用的结构来处理它。

这套结构,就是 Transformer


二、全流程概览:从Token到输出

下面是一段文字进入模型后的完整流程图解:

原始文本 → 分词器 → token序列 → token ID → embedding → Transformer → 输出token logits → 解码 → 输出文本

每一步都是模块化的,核心逻辑如下:

步骤内容说明
文本输入如:“今天阳光很好”
分词(tokenization)拆成 [“今天”, “阳”, “光”, “很”, “好”]
转换为token ID每个token对应一个整数编号
Embedding查表将ID映射为向量(如4096维)
Transformer处理多层 self-attention 提取语义特征
输出预测预测下一个token(如:“。”)

三、Transformer的核心组成

Transformer的两个核心结构:

  • Embedding层:接收token ID,查表转为向量;
  • Self-Attention层(注意力机制):每个token“关注”其他token,对其上下文建模。

每一层的操作逻辑类似于:

输入 → 多头注意力 → 残差连接 → LayerNorm → 前馈网络 → 残差连接 → LayerNorm

重复若干层(如GPT-3是96层)。


四、Self-Attention 是怎么处理Token的?

Self-Attention 的本质是:

让每个token根据自己与其他token的关系,调整自己的表达方式。

举例:

  • 输入:“他今天很高兴”
  • token:“高兴” 会强烈关注 “他”和“今天”,弱关注“很”
  • 输出向量是所有相关性加权后的融合结果

这种机制让模型不仅理解单词本身,还理解它在上下文中的语义角色。


五、Token处理的三大关键点

  1. 并行性强:Transformer不像RNN逐字处理,它一次性处理所有token → 大幅加速;
  2. 上下文感知强:每个token都能“看见”上下文中的其他token;
  3. 结构通用:可处理翻译、对话、摘要等各种任务,仅输入输出token不同。

六、结尾提示:后续结构靠Token撑起

Transformer不是脱离token独立存在的“神经网络”,而是:

  • 以token为输入;
  • 以token之间的结构为计算核心;
  • 最终也以token为输出单位。

理解Transformer的本质,就是在理解token如何被解码、重构、排列与预测。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值