几种Attetnion机制

最新推荐文章于 2022-11-21 00:06:01 发布

阿华Go

最新推荐文章于 2022-11-21 00:06:01 发布

阅读量751

点赞数

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014038273/article/details/83143332

版权

深度学习专栏收录该内容

44 篇文章 2 订阅

订阅专栏

主要列一下参考文献，便于以后再了解~

从Seq2seq到Attention模型到Self Attention（一）
从Seq2seq到Attention模型到Self Attention（二）

Attention (Query,Key,Value)

一般Attention： Query来自Decoder中，Key=Value来自Encoder中，一般有乘法Attention和加法Attention，加法的话Query和Key的维度可以不一致，乘法Attention的一般一致，方便计算，因为eij=tanh(V*(W1Di+W2hj))，通过W1,W2可以进行恢复为统一权重；
Self-Attention:Query=Key=Value来自来自同一边，同时来自Encoder或者Decoder，这是为了解决1）原始Encoder或者Decoder中RNN的训练速度非常慢的问题；2）原始的context vector只是目标句和输入句之间的关系，却忽略了输入句或目标句中单词之间的关联，因此自然而然提出了Self-Attention方法，详见上面的参考文献~

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
几种Attetnion机制

主要列一下参考文献，便于以后再了解~从Seq2seq到Attention模型到Self Attention（一）从Seq2seq到Attention模型到Self Attention（二）Attention (Query,Key,Value)一般Attention： Query来自Decoder中，Key=Value来自Encoder中，一般有乘法Attention和加法Attention...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。