Raki的读paper小记：Attention Is All You Need

最新推荐文章于 2024-10-15 20:30:18 发布

爱睡觉的Raki

最新推荐文章于 2024-10-15 20:30:18 发布

阅读量377

点赞数

分类专栏：读paper NLP 文章标签： transformer 深度学习自然语言处理人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Raki_J/article/details/122243615

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

82 篇文章 10 订阅

订阅专栏

大名鼎鼎的transformer原文，虽然早就读过了，并且看了两遍沐神的带读，但是却没有写博客，今天想起来决定还是要记录一下，毕竟它太重要了，记录一下也能加深印象。

模型

transformer模型总览如下

Encoder

encoder层由六层堆叠而成
每一个encoder里面有两个子层
第一个子层是多头注意力机制
第二个子层是全连接层
都使用残差连接，并且使用LN，输出维度为512
并且在输入之前都加上位置编码：
$\begin{aligned} PE_{(pos,2i)} = sin(pos/10000^{2i/dmodel}) \\ PE_{(pos,2i+1)} = cos(pos/10000^{2i/dmodel}) \end{aligned}$

连接层是一个Position-wise Feed-Forward Networks，意思是对每个token投影到2048维，再投影回512维：
$\begin{aligned} FFN(x) = max(0, xW_1 + b_1)W_2 + b_2 \end{aligned}$

Decoder

decoder和encoder一样由六层组成，不一样的是，每一层分为3个子层
第一个子层接受上一个子层的输出作为输入，在加上位置编码的同时，加上了mask
第二个子层接受encoder的最后一层输出作为V和K ，第一个子层的输出作为Q
第三个子层是全连接层

都使用残差连接，并且使用LN

input embedding，output embedding，还有softmax层之前的linear层，都使用同一个投影矩阵，并且embedding都会乘以一个 $\mathbf{\sqrt{d_{model}}}$
在这里插入图片描述

训练参数：

优化器：Adam
在这里插入图片描述
正则化：Dropout

标签平滑：
只要softmax的输出值>=0.1就直接当做正确答案，这会影响模型的困惑度，但是提高了准确性和BLEU分数

实验

在这里插入图片描述

评价

到真正自己要写博客才发现，对transformer的理解还有盲点，所以还是得写博客，虽然我不是在写解读，但是记录的过程也勉强算是跟费曼学习法沾边，果然好记性不如烂笔头呀！（更别说我现在记性变差了好多呜呜呜）

Transformer算是开启了MLP,CNN,RNN模型之后的第四范式，可以说是划时代级别的paper，入门的时候一定要把它吃的透透的

爱睡觉的Raki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。