【论文阅读】attention is all you need

Capsfly

于 2022-09-29 11:06:01 发布

阅读量551

点赞数

分类专栏： nlp 文章标签：论文阅读深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/capsnever/article/details/127100742

版权

nlp 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1.论文链接

Attention Is All You Need

2.论文主要为了解决什么问题？

传统的RNN不能并行处理，如果想要有 $h_{i}$ ，必须要有 $h_{i-1}$ 作为输出
传统的CNN的跨度太大
以上两个不是很好的能够捕捉到很久之前的信息

3.模型流程

在这里插入图片描述
由于这个模型的过程比较多，因此只选择了部分有代表性的来说明

layer normalization

首先常见的有batch normalization，就是对于特定特征 $f e a$ ，将其每一个样本 $fea_i$ 构成的集合，调整为均值为0，方差为1的序列。那我们为什么不这么选呢？首先我们会在没有数据的地方放置0，因此如果出现了一个特别长的序列，我们整个样本的值和可信度就会收到影响，因此我们选择layer normalization

layer normalization:对于一个单个样本 $i$ ，将其所有特征组成的集合调整为均值为0，方差为1的序列。

Scaled Dot-Product Attention

在这里插入图片描述
此处是用来计算QK的相似度的，除以 $\sqrt{d_k}$ 是因为经过softmax之后有的会很接近0，防止训练的时候梯度消失。

MASK操作

在这里插入图片描述

首先我们知道，transformer这个模型如果不去看postional encode的话是没有时序信息的。在encode的时候没有问题，我们能够看到完整的输入。但是在decode的时候就有问题了，他只能看到之前位置的输出结果。所以在decode的时候，将对应位置直接设置成一个非常小的数字，比如 $1e^{-10}$ ，这样经过softmax之后概率就是0.

Positional Encoding

在这里插入图片描述

因为我们没有位置信息，所以我们要编码一个位置信息放进去。

4.论文创新点

直接放弃了传统的RNN和CNN的结构，全文用的都是attention机制，追求并行度。
虽然直接放弃了RNN结构，但是由于位置信息是非常重要的，他又加入了Positional Encoding保留位置信息
用点积作为相似度
没用batchnorm而用的是layernorm

5.本文可能潜在改进的地方

觉得算相似度可以直接用余弦值来计算（一个猜测）

6.本论文收到了哪些论文启发？

传统的RNN CNN
seq with attention

7.参考链接

别人的博客

李沐 transformer解读

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】attention is all you need

论文阅读
复制链接

扫一扫

专栏目录

Capsfly CSDN认证博客专家 CSDN认证企业博客

码龄4年

187: 原创

23万+: 周排名

6万+: 总排名

9万+: 访问

: 等级

2095: 积分

62: 粉丝

83: 获赞

45: 评论

175: 收藏

私信

关注

热门文章

分类专栏

c++ 40篇
错误提醒 23篇
数学建模 11篇
os 12篇
编程技巧 1篇
计组 16篇
pytorch 2篇
nlp 12篇
论文写作 2篇
CSP 7篇
算法证明 1篇
经验分享 1篇
acm 25篇
ml 6篇
山大c++实验 14篇
git/github 1篇
matlab 1篇
latex 3篇
电子电路 3篇
数据库 10篇
python 1篇
数据结构 3篇
c++笔记 1篇
电子电路笔记 1篇
离散数学 3篇
visual studio 2篇
JAVA 5篇

最新评论

《多元函数微分学》笔记 2
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
《多元函数微分学》笔记 2
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
《多元函数微分学》笔记 1
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
《多元函数微分学》笔记 1
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加条理清晰的目录。
高数二《向量》笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。