李宏毅机器学习-self attention（自己日后怕忘复习记录的）乱写的

最新推荐文章于 2024-03-31 00:15:00 发布

戚有伟

最新推荐文章于 2024-03-31 00:15:00 发布

阅读量1.2k

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45909601/article/details/124381051

版权

Attention机制全连接层权重矩阵向量关联参数优化

关键词由CSDN通过智能技术生成

要考虑到a1,a2,a3,a4之间的关联，使用全连接层参数量大，且长度不一，改用attention

要考虑到a1，与其余的几个了联系，就要知道联系的权重阿法（a），下面如何得到a？

第一种方法如左图，给a1，a2乘上不同的权重矩阵，得到q，k矩阵，将其在相乘得到阿法

方法二：忽略

将上面步骤运用到4个vector中首先算出a1的q1，再将a2，a3，a4算出k2，k3，k4，并做点乘，同时，a1自己与自己也要做点成操作，即算出a1的q，k，所有结果做softmax（也可以别的激活函数）

，

已经得到a1与哪个最具有关联性，下面要根据ateetion score（即q,k点乘的结果a11，a12）得到重要的资讯，用新的向量Wv乘以a1都得到v1，再将v1与attention score相乘

之前为了得到q1，q2，q3，q4即用不同的a（1，2，3，4）去点乘一个wq，这种操作可以合并成一个矩阵

同时attention score也可以用一样的操作，合并成一个矩阵与矩阵相乘的形式

接下来就是v与attention score点乘得到注意力的地方，用矩阵去表示

整体表示，从中可以发现只有wq，wk，wv是未知的，需要通过训练资料得到他

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习-self attention（自己日后怕忘复习记录的）乱写的

要考虑到a1,a2,a3,a4之间的关联，使用全连接层参数量大，且长度不一，改用attention要考虑到a1，与其余的几个了联系，就要知道联系的权重阿法（a），下面如何得到a？第一种方法如左图，给a1，a2乘上不同的权重矩阵，得到q，k矩阵，将其在相乘得到阿法方法二：忽略将上面步骤运用到4个vector中首先算出a1的q1，再将a2，a3，a4算出k2，k3，k4，并做点乘，同时，a1自己与自己也要做点成操作，即算出a1的q，k，所有结果做softmax（...
复制链接

扫一扫

戚有伟 CSDN认证博客专家 CSDN认证企业博客

码龄5年

7: 原创

116万+: 周排名

176万+: 总排名

5937: 访问

: 等级

71: 积分

0: 粉丝

0: 获赞

4: 评论

7: 收藏

私信

关注

热门文章

最新评论

latex 问题汇总
CSDN-Ada助手: 恭喜您撰写了第7篇博客，标题为“latex问题汇总”！您的努力和持续创作的精神值得赞赏。通过整理和总结latex问题，您为读者提供了一个宝贵的资源。我希望您能继续保持谦虚和勤奋的态度，继续分享您的知识和经验。下一步，我建议您可以考虑深入探讨一些具体的latex问题，或者分享一些实用的技巧和技巧。期待您的下一篇博客！
colab使用步骤
戚有伟: 不会的
colab使用步骤
小奕煋: 配置环境下载的东西是在云端吗？不会对本地计算机造成影响吧？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。