Attention Is All Your Need论文笔记

xiaoyan_lu

已于 2024-02-15 18:46:22 修改

阅读量1.4k

点赞数 18

分类专栏：论文笔记文章标签：论文阅读

于 2024-02-15 18:43:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62780794/article/details/136122331

版权

论文笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

GoogleBrain团队提出Transformer，一种基于注意力机制的简单网络结构，无需递归和卷积，显著提升训练速度，且在WMT2014英德、英法翻译任务中打破记录，表现出强大的泛化能力。

摘要由CSDN通过智能技术生成

论文解决了什么问题？

提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。

We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.

论文采用了什么方法？

用多头注意力取代推导层。

论文达到了什么效果？

该论文提出的模型，在WMT2014英语翻译德语和英语翻译法语的任务实验中，打破了当时的最好记录，并且其训练成本仅仅是最好模型的一小部分。
提出的模型成功地泛化到其他任务上。

Author：Google Brain

Key words:神经网络,transformer

Abstract：

作者提出了一个新的简单网络架构transformer。该模型是基于注意力机制，完全免去递推和卷积。模型的质量上更好，有着更好的并行性，训练地速度极大地减少，可以很好地泛化到其他任务中。

Introduction:

过去，关于语言模型和机器翻译，主要使用RNN、LSTM、GRNN。但这些模型中计算步骤是，使用前一个状态ht-1的输出来做为后一个状态ht的输入，这种顺序性质限制了其计算效率。尽管最近的工作提升了模型的性能，但其根本的顺序计算限制仍然存在。

Transformer模型就是为了解决这一个问题而提出来的，它有着显著更多的并行性并且在翻译质量上达到最先进水平。

Background:

transformer的目标是减少序列化计算，这同时也是ByteNet和ConvS2S的基础。但是这些模块中，被要求关联两个任意输入或输出位置的信号的操作数量随着位置间距离的增长而增长，这使得学习两个远距离位置的依赖关系困难。

提出自我注意力机制，是将单个序列不同位置联系起来以计算一个序列表示的注意力机制。

Model Architecture:

该章节主要讲解transformer的架构，是编码-解码架构。

编码器和解码器都是由6个相同层的堆栈组成。注意力函数被描述为将查询和一组键值对映射到输出，查询、键、值和输出都是向量。输出被计算为值的加权和。

缩放点积注意力：附加注意力使用具有一个单隐藏层的前反馈网络计算兼容性函数。

多头注意力：允许这个模型共同关注来自不同地点、不同表示子空间的信息。

注意力在模型中的应用：

1.在“encoder-decoder attention" layer中，这个查询来自之前的解码层。

2.编码器包含自我注意力层。

3.解码器中自注意力层允许解码器中每个位置关注解码器中达到并包含该位置的所有位置。

位置式前反馈网络：

除了注意力层，在我们”encoder-decoder“中的每一层包含了一个全连接前向反馈网络，这被分别相同地应用到每个位置。

嵌入和softmax：

使用学习嵌入去把输入标记和输出标记转换为维度dmodel的向量。

位置编码：

由于本文提出的模型中不包含递归或卷积，为使模型利用序列的顺序，必须投入一些有关序列中标记的相关或者绝对位置的信息。因此，把”位置编码“添加到在编码和解码栈底部的输入其纳入中。

Why Self-Attention:

作者把自注意力和循环层以及卷积层进行比较，体现自注意力的优点。

作者考虑使用自注意力的三个需求，

1.每层的总计算复杂度

2.可以并行化的计算量

3.网络中远程范围依赖之间的路径长度。

Training:

本章节即实验部分，作者使用WMT2014上的数据训练文章提出的模型，并得出实验结果。

Reults:

对于transfomer实验结果的分析，发现transformer在机器翻译的结果优于最新模型，并且在英语选区解析上的表现结果也出奇的好。

Conclusion:

1.本文提出了一个完全基于注意力的序列转导模型，用多头自我注意力取代在编码-解码架构中最常使用的推导层——Transformer。

2.未来计划将Transformer扩展到文本以外的输入和输出模式的问题。

参考资料：

国外大神写这篇文章非常通俗易懂

详解Transformer——知乎

Attention is all your need 精读

关注

18
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
Attention Is All Your Need论文笔记

作者提出了一个新的简单网络架构transformer。该模型是基于注意力机制，完全免去递推和卷积。模型的质量上更好，有着更好的并行性，训练地速度极大地减少，可以很好地泛化到其他任务中。
复制链接

扫一扫

专栏目录

xiaoyan_lu CSDN认证博客专家 CSDN认证企业博客

码龄3年

78: 原创

7万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1199: 积分

252: 粉丝

365: 获赞

22: 评论

365: 收藏

私信

关注

热门文章

分类专栏

最新评论

每日资讯——OpenAI与谷歌相争，火药味甚浓
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
每日资讯——OpenAI与谷歌相争，火药味甚浓
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
《亲密关系》阅读笔记
征途黯然.: This article about 亲密关系阅读笔记 is very insightful and profound! The understanding and explanation are impressive. I have gained a lot of knowledge from it. Thank you for sharing!
《亲密关系》阅读笔记
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
苍穹外卖总结
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。