Attention结构解析

最新推荐文章于 2024-07-24 09:27:34 发布

Neo的作战室

最新推荐文章于 2024-07-24 09:27:34 发布

阅读量2k

点赞数 1

分类专栏： python AI算法文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34741466/article/details/104432942

版权

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

一篇最重要的论文《Attention Is All You Need》中介绍了Attention结构。
在这里插入图片描述
总共分为两个部分encode和decode，有三个小模块，attention，Feed Forward和decode部分的multi-head attention模块。

一.Attention

input embedding
使用word2vec将tokens转换成词向量，如ELMO或SkipGram等算法。
positional encoding
位置编码。这里是为了表示该token处于这个句子的什么位置而设置的。

dmodel：词向量的维度
pos：token在句中的位置，从0开始计算。
i：词向量的第i个位置，在偶数位置计算其sin，奇数位置计算其cos，
PE可以看成一个矩阵，行向量表示token，列向量表示词向量维度。
Attention模块

在这里插入图片描述
这幅图描述了Attention计算过程，具体细节如下：

这里的query，key，value引用了信息检索相关的知识，query是搜索词，key，value是一个字典，已知搜索词在字典中进行查找的一个过程。如果将x1,x2…转换为矩阵运算，可以使用GPU进行加速，提高运算速度：
在这里插入图片描述
4. Multi-head Attention
可以直观的翻译为多头注意力机制，意思是转换矩阵有多个，表示从不同的角度去学习一个句子，从不同角度专注于一个词或一个token或几个。

图中的Nx表示可以有多个模块级联。

二.Feed Forward

Add&Norm

论文中使用的Norm是layer Normalization
FFN
论文中是用的二层全连接神经网络：

三.Decode的multi-head attention

解码端的Attention模块略微复杂，
在这里插入图片描述
假如设encode端的输入为t，decode端输出为d，如上图所画，对应到具体计算是：

按照信息检索，encode端提供搜索词，decode提供字典，对搜索词进行检索。

Neo的作战室

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。