Transformer 简单理解

最新推荐文章于 2024-05-21 19:28:42 发布

hjxu2016

最新推荐文章于 2024-05-21 19:28:42 发布

阅读量144

点赞数

分类专栏：文献阅读文章标签： 1024程序员节

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hjxu2016/article/details/133679486

版权

文献阅读专栏收录该内容

24 篇文章 2 订阅

订阅专栏

本文详细介绍了Transformer模型的架构，包括词向量编码、位置编码方法，以及如何通过PadMask和上三角Mask处理输入。着重讲解了注意力计算过程，区分了单头注意力和多头注意力，并概述了计算流的设计。

摘要由CSDN通过智能技术生成

文章目录

一、Transformer的架构
一、编码
- 1.1 词向量编码（Input Embedding）
- 1.2 位置编码（Positional Encoding）
二、Mask
- 2.1 PAD Mask
- 2.2 上三角Mask
二、注意力计算
三、计算流

参考自 https://www.bilibili.com/video/BV19Y411b7qx?p=2&vd_source=e768911f41969985adfce85914bfde8f

一、Transformer的架构

在这里插入图片描述

一、编码

词向量编码 + 位置编码 = 最终的输入编码

1.1 词向量编码（Input Embedding）

可以是简单的词向量编码

1.2 位置编码（Positional Encoding）

Teanformer 不同于Rnn, 在处理数据时，不考虑数据的位置信息，所以需要在数据中加入位置信息，以让处于不同位置的相同数据有所不同，相互区分。
在这里插入图片描述

$p os$ : 词位置，[0,1,2,3…] 第一个词、第二个词
$i$ : 编码位置，[0, 1, 2, 3， …]， $i$ 是词向量编码后，第0个向量，第1个向量
如果词向量编码是32个维度，那么 $i$ 是 0-31

$p os$ 是PE矩阵的行数， $i$ 是矩阵的列数
$d_{model}$ : 编码维度， 32
来看一个位置编码的矩阵截图
可以看到，第一列数值波动的频率比较高，越往右波动越小
在这里插入图片描述

二、Mask

最终Mask 是Pad mask 与上三角mask取并集

2.1 PAD Mask

让一句话保持同样的长度，当出现短的句子的时候，需要补Pad,

每个词对Pad的注意力标注为Mask, 但Pad 对每个词的注意力正常计算
在这里插入图片描述

2.2 上三角Mask

b和c是需要预测到的词，因此a不能注意到b
在这里插入图片描述

二、注意力计算

2.1 Q、K、V 向量的生成

在这里插入图片描述

2.2 自注意力计算流程

在这里插入图片描述

2.2 单头注意力和多头注意力

在这里插入图片描述

三、计算流

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer 简单理解

参考自。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。