【Transformer】总体解读

最新推荐文章于 2025-04-17 09:39:32 发布

猎猎长风

最新推荐文章于 2025-04-17 09:39:32 发布

阅读量818

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40633696/article/details/115330377

版权

自然语言处理专栏收录该内容

29 篇文章

订阅专栏

本文深入解析Transformer模型，重点介绍了位置编码如何为序列信息注入位置信息，多头注意力机制的工作原理及其在Transformer中的实现，以及残差连接和LayerNorm在模型稳定性和训练效率中的作用。内容包括基本的注意力机制、Encoder和Decoder的结构，以及前馈神经网络的简要提及。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

二、位置编码

三、多头注意力机制

1. 注意力机制

1.1 基本的注意力机制

1.2 在TRM中怎么操作

四、残差和layerNorm

五、前馈神经网络

本文是对B站视频“transformer从零详细解读”的笔记，视频：https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1

一、概述

TRM在做一个什么事情？

transformer包含encoder和decoder

encoder和decoder分别有六个

原论文中transformer模型结构

encoder包含以下三个部分:

二、位置编码

encoder输入部分：

1. Embedding

2. 位置嵌入

为什么需要？

位置编码公式

将词向量和位置编码相加作为模型的输入

引申一下为什么位置嵌入会有用

但是这种相对位置信息会在注意力机制那里消失

三、多头注意力机制

1. 注意力机制

1.1 基本的注意力机制

经典的注意力机制的图，颜色深的表示很受关注，浅的表示不怎么受关注。

1.2 在TRM中怎么操作

原论文中注意力机制的计算公式：

从公式角度来看：拿上面的图片举例子

两个向量越相似，点乘结果越大。

再举个栗子

TRM中的注意力

在只有单词向量的情况下，如何获取QKV？

w通过随机初始化，并训练获得参数。

计算QK相似度，得到attention值

实际代码使用矩阵，方便并行

多头注意力机制

多个头就会有多个输出，需要合在一起输出

四、残差和layerNorm

1. 残差

残差的作用

2. layerNorm

BN效果差，所以不用。（BN这边没看，后面需要补上）

为什么使用layer norm？

理解：为什么LayerNorm 单独对一个样本的所有单词做缩放可以起到效果。

把BN 引申到 RNN

五、前馈神经网络

decoder未学习，后面补上。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。