Transformer相关

石头猿rock

已于 2022-10-24 21:17:14 修改

阅读量671

点赞数 1

分类专栏： NLP面经文章标签： 1024程序员节

于 2022-10-24 18:44:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42887772/article/details/127497109

版权

说一下Transformer：

Transformer是由encoder模块各decoder模块构成的，这两个模块都是由6各相同的子模块组成。
1.它的encoder模块首先是embedding层，然后是基于三角函数的绝对位置编码
2.接下来进入第一个子模块，首先是多头自注意力机制，Transformer将512维的embedding转换成8*64的embedding，通过计算各单词之间的注意力权重加权生成新的向量表示，然后进行残差连接和层归一化操作，接下来将embeding送入前馈神经网络层，最后将embedding再进行残差连接和层归一化操作，送入到第二个相同的子模块。
3.decoder模块中是掩码自注意力机制，在交互时，由当前时刻输入的embedding提供query向量，由encoder提供key，value向量，通过cross attention操作得到当前单词的上下文表示。

self-attention计算过程：

1.将单词转化成embedding向量
2.将各单词的embedding向量通过不同的线性变换生成query，key，value向量
3.通过self-attention公式计算各单词之间的注意力权重，然后加权各单词的embedding向量

解释self-attention公式：

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer相关

Transformer是由encoder模块各decoder模块构成的，这两个模块都是由6各相同的子模块组成。1.它的encoder模块首先是embedding层，然后是基于三角函数的绝对位置编码。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

石头猿rock 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。