《Attention Is All You Need》

最新推荐文章于 2022-11-19 15:50:43 发布

JN_rainbow

最新推荐文章于 2022-11-19 15:50:43 发布

阅读量592

点赞数

分类专栏：自然语言处理论文文章标签： NLP Attention Transformer Google

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JN_rainbow/article/details/84712660

版权

本文深入探讨Google的Transformer模型，该模型基于注意力机制，替代了传统的RNN和CNN。Transformer中的Self-Attention允许模型捕捉句子的内部结构，Multi-Head Attention进一步增强了这一能力。Feed-Forward Networks和Positional Encoding分别用于增强模型表达力和处理序列顺序信息。文章还讨论了自注意力的优势、正则化策略以及在测试集上使用Beam Search的重要性。

摘要由CSDN通过智能技术生成

本文是对Google2017年发表于NIPS上的论文"Attention is all you need"的阅读笔记.

对于深度学习中NLP问题，通常是将句子分词后，转化词向量序列，转为seq2seq问题.

RNN方案

采用RNN模型，通常是递归地进行 $y_t=f(y_{t-1},x_t)$ ，优点在于结构简单，十分适合序列建模；缺点在于需要前一个输出作为后一个的输入参与运算，因此无法并行计算，速度很慢，且单向RNN只能获取前向序列关系，需要采用双向RNN才可以获取完整的全局信息.
CNN方案

采用CNN模型，则是通过一个窗口(卷积核)来对整个序列进行遍历， $y_t = f(x_{t-1},x_t,x_{t+1})$ 只能获取到局部信息，需要层叠来增大感受野.

本文提出了一种Transformer注意力机制，完全替代了RNN、CNN.

$y_t = f(x_t,A,B)$

将A、B都取为X时，则称为Self-Attention，即通过 $x_t$ 和整个 $X$ 进行关系运算最后得到 $y_t$ .

Attention层

Google给出了如下的Attention结构

Attention层.jpg

$softmax(\frac{QK^T}{\sqrt{d_k}})V$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Attention Is All You Need》

本文是对Google2017年发表于NIPS上的论文"Attention is all you need"的阅读笔记.对于深度学习中NLP问题，通常是将句子分词后，转化词向量序列，转为seq2seq问题.RNN方案采用RNN模型，通常是递归地进行yt=f(yt−1,xt)y_t=f(y_{t-1},x_t)yt=f(yt−1,xt)，优点在于结构简单，十分适合序列建模；缺点在于需要...
复制链接

扫一扫

专栏目录

博客等级

码龄8年

28
原创

23
点赞

113
收藏

18
粉丝

关注

私信

热门文章

分类专栏

最新评论

自然语言处理(二)概率论信息论基础
Tisfy: 真棒！就像：我闭南楼看道书，幽帘清寂在仙居。
Devstack真实环境搭建OpenStack
workbushzw 回复 grant-bobo: 执行命令： FORCE=yes ./stack.sh
Devstack真实环境搭建OpenStack
grant-bobo: +tools/install_pip.sh:install_get_pip:92 sudo -H -E python /opt/stack/devstack/files/get-pip.py -c /opt/stack/devstack/tools/cap-pip.txt File "/opt/stack/devstack/files/get-pip.py", line 372 n;2ls`OsOt4uTy;)h2#Snrny&m;H=H%!rrDCXfNn ^ SyntaxError: EOF while scanning triple-quoted string literal 请问这个问题如何解决？
Devstack真实环境搭建OpenStack
grant-bobo: 搜到了配置方法： $ echo "FORCE=yes" > localrc $ ./stack.sh
Devstack真实环境搭建OpenStack
grant-bobo: #解决方案： `$FORCE=yes ./stack.sh` 这句看不懂，到底该如何配置？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。