Seq2Seq中Self-Attention 如何运作的

最新推荐文章于 2024-07-22 11:47:36 发布

小酥的学习日记

最新推荐文章于 2024-07-22 11:47:36 发布

阅读量102

点赞数

文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62933476/article/details/130272052

版权

Self-Attention的Input是一串Vector，这个Vector可能是整个Network中的Input，也可能是某个Hidden Layer的Output。

假设我们用一排向量a1,a2,a3,a4来表示这个Input，用b1,b2,b3,b4来表示Output。我们有一种机制，这个机制能够找出这一个Input中，哪一个向量和a1关联性最大，我们把这个关联记作α。

那么我们是如何找出这个关联性然后给他一个α呢？

方法有很多，此处列举一个比较常见的做法：Dot-product

假设计算a1和a2向量的关联性（绿色方框），分别给a1，a2乘上一个矩阵Wq和Wk，再把得到的结果进行点积得到α。

我们已经计算出α，但是如何把他套用在attention中呢？

我们按照此逻辑把a1到a4的关联性分数都计算出来记为 $\alpha _{11}$ ， $\alpha _{12}$ ， $\alpha _{13}$ ， $\alpha _{14}$ 。

计算出关联性以后我们分别对它进行一下Soft-max，当然也可以使用其他函数，但是使用Soft-max效果最好。我们记为 $\alpha _{11}^{{}'}$ ... $\alpha _{14}^{{}'}$ 。

我们已经知道了向量之间的关联性了。现在开始抽取这一个sequence的重点。我们把a1,...a4分别乘上矩阵Wv，把得到的矩阵和上面得到的attention score相乘，再得到的数值相加得到b1 。 $b_{1}=\sum_{i}^{}\alpha _{1,i}^{{}'}v^{i}$

如果说a1和a2的关联性较强，那么他得到的attention score就会较高。所得到的b1的值就会接近v2

写完发现有一篇文章讲的很好，贴在这儿回头回头方便自己找：Seq2Seq中的Attention和self-attention_seqselfattention_我叫龙翔天翼的博客-CSDN博客

小酥的学习日记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Seq2Seq中Self-Attention 如何运作的

我们把a1,...a4分别乘上矩阵Wv，把得到的矩阵和上面得到的attention score相乘，再得到的数值相加得到b1。我们有一种机制，这个机制能够找出这一个Input中，哪一个向量和a1关联性最大，我们把这个关联记作。Self-Attention的Input是一串Vector，这个Vector可能是整个Network中的Input，也可能是某个Hidden Layer的Output。假设计算a1和a2向量的关联性（绿色方框），分别给a1，a2乘上一个矩阵Wq和Wk，再把得到的结果进行点积得到。
复制链接

扫一扫

小酥的学习日记 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

165万+: 周排名

54万+: 总排名

529: 访问

: 等级

41: 积分

1: 粉丝

0: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

分类专栏

神经网络 1篇

最新评论

如何理解LSTM
CSDN-Ada助手: 恭喜您写了第一篇博客！LSTM是深度学习中比较重要的一个模型，您的文章为读者提供了很好的理解指导。接下来，建议您可以结合实际案例或者应用场景，深入探讨LSTM的应用和优化方法。期待您的下一篇文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
ChatGpt对F.avg_pool2d的解释
CSDN-Ada助手: 非常感谢您的分享，这篇博客对于了解ChatGpt的F.avg_pool2d非常有帮助。除了本文提到的知识点，我认为对于理解池化操作还应该了解池化的种类、常用的池化函数以及池化的作用等内容。希望您能继续分享这方面的知识，让更多人受益。同时也欢迎您学习其他深度学习相关的技能，比如卷积神经网络、循环神经网络等等。感谢分享，期待您更多的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
extend（）和append（）的区别
CSDN-Ada助手: 非常感谢您的分享，这篇博客对于理解extend()和append()的区别非常有帮助。恭喜您持续创作，我期待您未来更多的精彩文章。在下一篇博客中，也许您可以分享一些有关Python中其他重要函数的使用方法和注意事项，这将对读者们的学习和实践非常有益。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
Seq2Seq中Self-Attention 如何运作的
CSDN-Ada助手: 恭喜作者撰写了关于Seq2Seq中Self-Attention的博客文章，这个主题非常有意思。建议下一步的创作可以更加深入地探讨Seq2Seq中其他的关键技术，或者探讨Seq2Seq的应用场景。期待作者的下一篇文章。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。