Transformer

keep--learning

已于 2023-06-27 16:17:57 修改

阅读量819

点赞数

分类专栏：李宏毅机器学习文章标签：深度学习自然语言处理机器学习

于 2023-06-22 16:33:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51426525/article/details/131342051

版权

李宏毅机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本节主要讲了Self-Attention的原理以及在Transformer上的应用。

1.1 RNN的缺点

RNN的缺点就是无法并行计算参数，就比如要计算b4，就要计算出a1-a4。有人提出用CNN代替RNN：

优点：可以并行处理参数；

缺点：单层的CNN只能考虑非常有限的内容，若要考虑更多的内容就需要叠加很多层。

1.2 Self-Attention

Self-Attention的输入输出与RNN一样，都是sequence。它和双向RNN有同样的能力，每一个输出都是看过整个input sequence，区别就在于b1-b4可以并行计算。

先将输入x(sequence)通过矩阵W，转换成a(embedding)，然后用a乘上三个不同的矩阵得到三个向量q、k、v。

先将输入x(sequence)通过矩阵W，转换成a(embedding)，然后用a乘上三个不同的矩阵得到三个向量q、k、v。

然后用每个q去对每个k进行attention运算，得到-，再进行soft-max处理得到对应的。

将与v相乘加权得到b。

上述过程可以用矩阵运算表示，就可以并行处理。

Multi-head Self-attention

以两个head为例，就是把q、k、v分成两个单独的向量，最后得到的输出向量b也是两个，可以乘上一个矩阵进行降维得到b。这样做的好处就是，不同head的注意点不同，一个head的关注范围是全局，另一个是局部。

Position Encoding

在原始文献中，用超参数e来代表位置信息。视频中提到的一种方法，用one-hot向量来代表位置信息，然后和x拼接，与W相乘，得到结果和论文中的一样。

1.3 Transformer

下图是一个seq2seq 模型，左半部是encoder，右半部是decoder。

Encoder：

输入通过一个input embedding layer变成一个向量，然后加上一个位置向量进入灰色的block，这个block会重复多次。

第一层是Multi-head attention，输入一个sequence，输出另一个sequence；

第二层是Add&Norm：把Multi-head attention的输入和输出加起来得到b′，然后做layer Norm；

第三层是Feed Forward，会把sequence 的每个b′向量进行处理；

第四层是另一个Add&Norm。

Decoder：

decoder的输入是前一个时间点的输出，通过output embedding，再加上位置向量进入灰色的block，灰色block同样会重复多次。

第一层是Masked Multi-head attention，Masked的意思是，在做self-attention的时候，这个decoder只会append已经产生的sequence，因为没有产生的部分无法做attention；

Application

只要用seq2seq的任务都可以换成transformer，比如机器翻译，文献摘要等。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Transformer

本节主要讲了Self-Attention的原理以及在Transformer上的应用。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。