李宏毅transformer（学习记录）

戚有伟

已于 2022-04-28 16:01:15 修改

阅读量757

点赞数

文章标签： python

于 2022-04-25 16:28:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45909601/article/details/124407494

版权

在S2S任务中，主要就是input进入encoder，然后经过decoder得到输出

transformer中的encoder结构，其作用就是输入一排向量，输出另一段向量，可以用self-attention，RNN，CNN模型完成、在transform中用的是attention

下面是encoder结构，input经过一系列的block，最后得到另外一组向量，

接下来是每个block的解析，以input为单独一个蓝色标签b为例，首先输入经过attention得到a,然后将a做残差即得到a+b，再将a+b做layer-norm得到c，将c经过全连接层（即右半边），并做残差得到c+d，并作layer-norm得到e，上述结构为一个block (layer-name与batch norm大致相同，不过不在局限于一个bantch）

整体结构图，将输入加入位置信息，（进入attention，在进行layer-norm，在进行FC+layer-norm）括号的为一个block操作重复n次

以上部分为encoder，decoder部分

将encoder得到的一组vector，在经过decoder结果在经过softmax得到输出值

decoder 会将前一次自己的输出当作输入

下面是decoder的结构，其中mask self-attention与self-attention区别在于，计算a22的时候q2只考虑与k1，k2相乘，不再考虑后面的k3，k4，得到的结果进入multi head attention

将mask attention中的vector得到q后，再从encoder结果抽取出资讯出来

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅transformer（学习记录）

在S2S任务中，主要就是input进入encoder，然后经过decoder得到输出transformer中的encoder结构，其作用就是输入一排向量，输出另一段向量，可以用self-attention，RNN，CNN模型完成、在transform中用的是attention下面是encoder结构，input经过一系列的block，最后得到另外一组向量，接下来是每个block的解析，以input为单独一个蓝色标签b为例，首先输入经过attention得到a,然...
复制链接

扫一扫

戚有伟 CSDN认证博客专家 CSDN认证企业博客

码龄5年

7: 原创

115万+: 周排名

157万+: 总排名

6145: 访问

: 等级

71: 积分

0: 粉丝

0: 获赞

4: 评论

7: 收藏

私信

关注

热门文章

最新评论

latex 问题汇总
CSDN-Ada助手: 恭喜您撰写了第7篇博客，标题为“latex问题汇总”！您的努力和持续创作的精神值得赞赏。通过整理和总结latex问题，您为读者提供了一个宝贵的资源。我希望您能继续保持谦虚和勤奋的态度，继续分享您的知识和经验。下一步，我建议您可以考虑深入探讨一些具体的latex问题，或者分享一些实用的技巧和技巧。期待您的下一篇博客！
colab使用步骤
戚有伟: 不会的
colab使用步骤
小奕煋: 配置环境下载的东西是在云端吗？不会对本地计算机造成影响吧？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。