【NLP论文】——Attention is all you need 注意力

最新推荐文章于 2024-07-21 20:39:09 发布

NNNNwang

最新推荐文章于 2024-07-21 20:39:09 发布

阅读量69

点赞数

分类专栏： NLP读论文文章标签： nlp 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62525850/article/details/134104826

版权

NLP读论文专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Attention网络的整体结构：

encoder +decoder

encoder是N=6个相同层按照堆栈的形式构成，每层encoder包括两个子层

decoder同样是6个堆栈构成，有三个子层。

该网络中，使用的最重要的两部分为：muti-head Attention 和 Feed Forward

Attention Function 看看作是：query，key-value --> output(查询，键值对映射到输出)

查询和键使用兼容性函数计算值的权重，值的加权和构成输出。

具体计算公式如下所示：

Q，K，V分别为query，key，value的矩阵。本算法与Dot-product相似，不同之处在于使用了 $\frac{1}{(d_k)^(1/2)}$ 。因为当d_k 增大时，Q*K增大，使得softmax的梯度逐渐变小，因此使用 $\frac{1}{(d_k)^(1/2)}$ 增大梯度。

softmax函数如下所示：

第一部分：Muti-head Attention

本论文设计的特殊的Attention全称为 Scaled Dot-Product Attention，以下是网络结构：

Muti-Head Attention：

相较于单次使用model维度的参数query,key,value输入到attention function中，使用h次不同的，学习过的线性计算query,value,key到d_k,d_k,d_v维度，更加有效。这些计算最终被连接和计算，并输出最终的结果。

作用：Multi-head attention 允许模型关注来自不同位置的表示不同子空间的信息。

第二部分：Position-wise Feed-Forward Networks

虽然在不同的位置使用相同的线性变换，但是层到层之间的参数不同，Feed Forward的函数如下：

embedding and softmax：在输入和输出中使用相同参数的embedding和pre-softmax线性转换

Positional encoding：由于本论文未使用任何卷积网络，为了利用序列间的顺序关系，在encoder和decoder的栈底部加入了positional encodings，本文使用的是如下关系：

pos是位置，i是维度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【NLP论文】——Attention is all you need 注意力

相较于单次使用model维度的参数query,key,value输入到attention function中，使用h次不同的，学习过的线性计算query,value,key到d_k,d_k,d_v维度，更加有效。Q，K，V分别为query，key，value的矩阵。Multi-head attention 允许模型关注来自不同位置的表示不同子空间的信息。因为当d_k 增大时，Q*K增大，使得softmax的梯度逐渐变小，因此使用。查询和键使用兼容性函数计算值的权重，值的加权和构成输出。
复制链接

扫一扫

专栏目录

NNNNwang CSDN认证博客专家 CSDN认证企业博客

码龄3年

34: 原创

135万+: 周排名

25万+: 总排名

1万+: 访问

: 等级

358: 积分

3: 粉丝

8: 获赞

9: 评论

23: 收藏

私信

关注

热门文章

分类专栏

NLP读论文 2篇
动态规划 4篇
pytorch学习 3篇
leetcode 5篇
人工智能 1篇
蓝桥杯 10篇
计算机网络 1篇
学习记录 5篇
并查集 1篇
搜索 2篇
模拟 2篇
枚举 2篇
公式规律 1篇

最新评论

蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
2301_80207550: 哥，你的思路我用C语言实现了一下，能得40分，但我不知道你这个思路的原理是什么，能具体讲一下吗？ #include<stdio.h> #include<math.h> int gcd(int a,int b){ return b?gcd(b,a%b):a; } int max(int a,int b){ if(a>b){ return a; } else{ return b; } } int min(int a,int b){ if(a<b){ return a; } else{ return b; } } int main(){ int a,b; scanf("%d %d",&a,&b); int t=abs(a-b); int i,k; if(t<a&&t<b){ for(i=1;;i++){ if(t*i>max(a,b)){ break; } } k=t*i-max(a,b); } else if(t>min(a,b)&&t<max(a,b)){ k=t-min(a,b); } printf("%d",k); }
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
Bowser_H: 最大公约数（公因数），最小公倍数，看这篇文章给我人都看迷糊了
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
大爷的溜溜球: 规定了输出的是正整数
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
NNNNwang: （21+k,100+k)的最大公约数为79。例如当k=58时，(21+58,100+58)的最大公约数为79
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
逐梦556: 作者这个程序运行，输入结果6和9的话，输出是3，我想知道为什么呀，9和12的最大公约数和6和9的最大公约数不都是3吗，那么输出不应该是0吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。