关于transformer机制的理解

最新推荐文章于 2024-08-26 08:00:00 发布

Bonyin

最新推荐文章于 2024-08-26 08:00:00 发布

阅读量1.9k

点赞数 2

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tryll/article/details/104730100

版权

自然语言处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

transformer机制的论文来源：

谷歌论文《Attention all in you need》\

该模型的架构图如下所示：
上面图中左边是encoder机制，右边是decoder机制。
encoder机制是由6层组成，如下图：
每一层的结构如下图所示：
假设现在有两个单词(word1,word2)经过embedding之后的向量上图中(x1,x2)，输入到self-attention机制：
整个self-attention机制的内部流程如下图：
输入的x1,x2需要加上相应的位置编码信息

关于位置编码的计算，举一个案例：

可以看出在偶数位置的时候使用sin函数计算，在奇数位置的时候使用cos函数计算。（上面的计算公式在论文中有说明）
上图中的embedding的x1,x2分别与WQ,Wk,Wv结合产生下面的结果：
x1.WQ = q1 (表示两个向量的乘积)
x2.WQ = q2
x1.Wk = k1
x2.Wk = k2
x1.Wv = v1
x2.Wv = v2
从图上可以看出这是一个querys,Keys, values结构，可以成根据key检索values的原理。
右边的图上，把k1.q1=112,k2.q2=98，…那么得到的这个结果就是表示每一个单词分别与输入的序列中的其他单词之间的注意力值。除以根号下dk是为了产生一个mean为0， variance为1（说明来源于该论文的第4页说明）；在将结果输入到softmax中，之后与v1，v2…分别相乘。得到图中的z1,z2,…
下面是论文中给出的计算公式：
Attention(Q, K, V ) = softmax(QK √dk T )V

multi-head attention

在这里插入图片描述

上图中的WQ,Wk,Wv是有八个的（对应八个head）；那么就会对应产生八个不同的attention。
将这个八个attention进行拼接。

整个multi-head attention的整体结构：

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Bonyin CSDN认证博客专家 CSDN认证企业博客

码龄8年

135: 原创

4万+: 周排名

26万+: 总排名

24万+: 访问

: 等级

3082: 积分

151: 粉丝

165: 获赞

27: 评论

449: 收藏

私信

关注

热门文章

分类专栏

最新评论

Hudi cleaning-异步操作
Alan_HQ: [code=java] public static final ConfigProperty<String> AUTO_CLEAN = ConfigProperty .key("hoodie.clean.automatic") .defaultValue("true") .markAdvanced() .withDocumentation("When enabled, the cleaner table service is invoked immediately after each commit," + " to delete older file slices. It's recommended to enable this, to ensure metadata and data storage" + " growth is bounded."); public static final ConfigProperty<String> ASYNC_CLEAN = ConfigProperty .key("hoodie.clean.async") .defaultValue("false") .withDocumentation("Only applies when " + AUTO_CLEAN.key() + " is turned on. " + "When turned on runs cleaner async with writing, which can speed up overall write performance."); [/code] 源码看，async clean只能在clean automatic为true时才会生效
Flink自定义sink端SinkFunction的应用
Bonyin: 你是什么版本的嘛
Flink自定义sink端SinkFunction的应用
qiangzi_lg: 你好，这个问题有解决嘛，是什么问题呢
HttpPost请求中绕开ssl证书
cuixianfei521: createIgnoreVerifySSL() 方法在哪？
spark-submit 提交任务报错 java.lang.ClassNotFoundException: Demo02
航少009: 我也是

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。