Transformer：论文《Attention is all you need》+李宏毅课程

最新推荐文章于 2024-05-08 21:29:03 发布

Xiao_yanling

最新推荐文章于 2024-05-08 21:29:03 发布

阅读量556

点赞数

分类专栏：机器学习学习笔记论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xiao_yanling/article/details/94441436

版权

Transformer

Seq2seq model with Self-attention
在这里插入图片描述
在RNN中虽然用到了输入序列的全部信息，但是很难实现输入序列词的同时训练，在self-attention layer中，目标序列 $b_1,b_2,...,b_i$ 中每一个都是基于全部输入序列而得到的，并且它们都是同时训练的。

Transformer结构：
在这里插入图片描述
Encoder：
编码器由6个相同的层堆叠在一起，每一层又有两个支层。第一个支层是一个多头的自注意机制，第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接，然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是 $d_{model}$ 。

Decoder：
解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层，解码器还加入了第三个支层，如图中所示同样也用了residual以及layer normalization。

Self-attention layer具体的过程：

第一步：
在这里插入图片描述
其中：
$q:query(to\ match\ others):q^i=W^qa^i$
$k:key(to\ be\ matched):k^i=W^ka^i$

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Transformer：论文《Attention is all you need》+李宏毅课程

TransformerSeq2seq model with Self-attention在RNN中虽然用到了输入序列的全部信息，但是很难实现输入序列词的同时训练，在self-attention layer中，目标序列b1,b2,...,bib_1,b_2,...,b_ib1,b2,...,bi中每一个都是基于全部输入序列而得到的，并且它们都是同时训练的。Transformer结构：...
复制链接

扫一扫

专栏目录

Xiao_yanling CSDN认证博客专家 CSDN认证企业博客

码龄5年

58: 原创

41万+: 周排名

194万+: 总排名

2万+: 访问

: 等级

816: 积分

10: 粉丝

3: 获赞

8: 评论

38: 收藏

私信

关注

热门文章

分类专栏

最新评论

CS224 树形递归神经网络
yuncy儿: 因为递归神经网络就是树形
CS224 树形递归神经网络
啃铁好辛苦: 作者您好我想问一下那也就是说树形递归神经网络其实就是递归神经网络只不过是因为递归神经网络具有树形特征所以你标题这样命名其为树形递归神经网络？
论文笔记：A Convolutional Encoder Model for Neural Machine Transltion
Tisfy: 楼主的帖子实在是写得太好了。
20200217-20200223阅读论文笔记
z1185196212: 楼主用的什么设备阅读论文的？
20200224-20200301 阅读论文
weileqi0320: 请问这篇文章现在有开源代码吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。