Transformer、多头自注意力机制

山、、、

已于 2022-03-26 13:12:09 修改

阅读量2.1k

点赞数 1

分类专栏：论文文章标签：神经网络算法

于 2022-03-23 17:46:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44689178/article/details/123691354

版权

论文专栏收录该内容

3 篇文章 0 订阅

订阅专栏

记录一下，自己的理解，不一定对！

注意力：

首先注意力很好理解，就是权重。例如 Y = （x1+....xn）/n，每个x的权重是相同的1/n；引入注意力机制就是使得每个x的权重不一样，当然权重和还是为1。

自注意力机制：

还是上面那个例子Y = （x1+....xn）/n。我想让每个x的权重不一样，我怎么办呢？？

用X表示{x1 .....xn}序列。我把X复制三遍，分别称作V, K ,Q。我用Q和K点积（也不一定是用点积，这个地方是想得到各个x之间的关系），然后用softmax变成和为1的权重值,记为向量表示GAMA =[g1 g2 .....gn], g1+g2+...gn=1。这样我就得到了各个x的权重值，那么Y可以重新表示为，Y= GAMA * X 的转置——Y = g1*x1+g2*x2+......+gn*xn 。为什么叫自注意力机制呢，我觉得就是用自己的值算的注意力。

多头注意力机制

就是把求注意力机制的过程重复多遍——多头，然后集合到一起，通过线性层变成单头的大小。我觉得可以理解成，计算一遍可能有误差，我多计算几遍，然后变成一个值，就有点类似与求期望，减少误差。注意，不是多算几遍注意力，然后求注意力的平均；而是用多算的注意力去求最后的值，然后求结果的平均。

只是粗略理解，实际上还有很多线性层计算（W)。

大家可以去b站看看李航老师关于《 attention is all you need》的论文讲解。这个论文主要是解决序列信息（机器翻译之类的，所以有的地方它要加很多东西。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer、多头自注意力机制

Transformer、多头自注意力机制
复制链接

扫一扫

专栏目录

山、、、 CSDN认证博客专家 CSDN认证企业博客

码龄5年

22: 原创

52万+: 周排名

181万+: 总排名

5万+: 访问

: 等级

330: 积分

25: 粉丝

38: 获赞

10: 评论

220: 收藏

私信

关注

热门文章

分类专栏

GNN 16篇
论文 3篇
NN优化 1篇
数据结构 1篇
java 1篇

最新评论

使用DQN解决cartpole问题（深度强化学习入门）
cyd1999: 我解决了，这个问题其实不是我们的算法问题，二十环境给的奖励的问题，奖励给的太稀疏了，需要自己定义一个奖励函数，根据观测值，用这段代码替换环境给的奖励就行了。 x, x_dot, theta, theta_dot = next_state r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8 r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5 reward = r1 + r2
pyG利用MessagePassing实现GCN(了解pyG的底层逻辑）
预备码农: 他这个好奇怪啊，x_i是起始节点的话不是变成末端向始端聚合消息了吗？
利用MessagePassing实现GAT(了解pyG的底层逻辑）
好奇怪啊: “此处的alpha_i ， alpha_j应该是——它的值是从alpha_l, alpha_r来的” 这里应该是反了，具体可以看这个https://blog.csdn.net/minemine999/article/details/119514944
利用MessagePassing实现GAT(了解pyG的底层逻辑）
王小明爱吃大菠萝: 讲得好
利用MessagePassing实现GraphSAGE(了解pyG的底层逻辑）
MATHEW_LEE: 为什么self.propagate里的x=（x,x）呢？而不是x=x

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。