【Token系列】06｜Transformer是如何处理语言的？从Token到Attention全流程拆解

Sumy[Tea构建者]

于 2025-04-26 13:53:40 发布

阅读量656

点赞数 23

分类专栏： AI智能文章标签：人工智能 embedding 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingdaoyin/article/details/147531307

版权

AI智能专栏收录该内容

22 篇文章

订阅专栏

文章目录

06｜Transformer是如何处理语言的？从Token到Attention全流程拆解
- 一、我们在处理“语言”，模型在处理“Token”
- 二、全流程概览：从Token到输出
- 三、Transformer的核心组成
- 四、Self-Attention 是怎么处理Token的？
- 五、Token处理的三大关键点
- 六、结尾提示：后续结构靠Token撑起

06｜Transformer是如何处理语言的？从Token到Attention全流程拆解

副标题：一段文字是如何被语言模型读懂的？从token输入到语义输出的全过程

一、我们在处理“语言”，模型在处理“Token”

人类读一句话是按顺序理解的；
语言模型读这句话，是将它切分成一连串token，并通过一套复杂但可复用的结构来处理它。

这套结构，就是 Transformer。

二、全流程概览：从Token到输出

下面是一段文字进入模型后的完整流程图解：

原始文本 → 分词器 → token序列 → token ID → embedding → Transformer → 输出token logits → 解码 → 输出文本

每一步都是模块化的，核心逻辑如下：

步骤	内容说明
文本输入	如：“今天阳光很好”
分词（tokenization）	拆成 [“今天”, “阳”, “光”, “很”, “好”]
转换为token ID	每个token对应一个整数编号
Embedding查表	将ID映射为向量（如4096维）
Transformer处理	多层 self-attention 提取语义特征
输出预测	预测下一个token（如：“。”）

三、Transformer的核心组成

Transformer的两个核心结构：

Embedding层：接收token ID，查表转为向量；
Self-Attention层（注意力机制）：每个token“关注”其他token，对其上下文建模。

每一层的操作逻辑类似于：

输入 → 多头注意力 → 残差连接 → LayerNorm → 前馈网络 → 残差连接 → LayerNorm

重复若干层（如GPT-3是96层）。

四、Self-Attention 是怎么处理Token的？

Self-Attention 的本质是：

让每个token根据自己与其他token的关系，调整自己的表达方式。

举例：

输入：“他今天很高兴”
token：“高兴” 会强烈关注 “他”和“今天”，弱关注“很”
输出向量是所有相关性加权后的融合结果

这种机制让模型不仅理解单词本身，还理解它在上下文中的语义角色。

五、Token处理的三大关键点

并行性强：Transformer不像RNN逐字处理，它一次性处理所有token → 大幅加速；
上下文感知强：每个token都能“看见”上下文中的其他token；
结构通用：可处理翻译、对话、摘要等各种任务，仅输入输出token不同。

六、结尾提示：后续结构靠Token撑起

Transformer不是脱离token独立存在的“神经网络”，而是：

以token为输入；
以token之间的结构为计算核心；
最终也以token为输出单位。

理解Transformer的本质，就是在理解token如何被解码、重构、排列与预测。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。