对于Attention机制中Q，K，V的一些理解

最新推荐文章于 2024-07-16 14:11:41 发布

人间再无张居正

最新推荐文章于 2024-07-16 14:11:41 发布

阅读量1.4w

点赞数 6

分类专栏：秋来落叶声

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013887652/article/details/101062567

版权

秋来落叶声专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Q、K、V是什么

[PS：本文谈论的Q、K、V只限于seq2seq结构]

Q：指的是query，相当于decoder的内容
K：指的是key，相当于encoder的内容
V：指的是value，相当于encoder的内容

看到这里，是不是只想直呼卧槽，这什么鬼。不急，先看一个例子

例子

由于讨论的是seq2seq任务，于是来看看机器翻译。
假如我们要将我喜欢看电影翻译成I like watching movies，步骤则会如下

使用一种编码方式(如LSTM、CNN、Transformer等)编码中文
使用一种方式解码
- 机器翻译这个任务中会在解码端给一个开始的标记，如</s>，我们根据这个标记传给解码端，开始生成英文，比如生成了I这个单词，下一步当然是需要生成’like’这个单词，于是这个I将会作为query集去查找，形象话说就是我们需要使用已经有的东西去询问一些事情。
- 去哪里查找？当然是编码端，也就是那些可以被查找的信息，如果原文在编码中是字向量表示则是我、喜、欢、看、电、影。
- 找到了返回啥的信息？返回编码端的信息，具体的会将我、喜、欢、看、电、影做一个调整再回传。

到这里，对于使用Attention机制的seq2seq任务，这么理解我认为是没问题的

推荐资料

http://jalammar.github.io/illustrated-transformer/
另外，jalammar这位大神写了不少有意义的资料，推荐读一读
https://www.youtube.com/watch?v=gciHGREJdJ4
这个视频是对BERT的介绍，里面有提到对Attention机制的理解，本文的写作来自于这个人的视频。

人间再无张居正

关注

6
点赞
踩
27

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

人间再无张居正 CSDN认证博客专家 CSDN认证企业博客

码龄11年

73: 原创

8万+: 周排名

45万+: 总排名

9万+: 访问

: 等级

1403: 积分

5: 粉丝

32: 获赞

13: 评论

103: 收藏

私信

关注

热门文章

分类专栏

最新评论

远程访问clickhouse
Happy_Saint: 好像可以： cclickhouse-client --host 你的IP --port 9000（你的默认端口）
对于Attention机制中Q，K，V的一些理解
lmw0320: 没有说清楚Q，K，V具体是什么鬼啊？？我的理解是: Q是指输出端的句子，其每个向量所组成的向量组。Q的维度是一个矩阵，n x d, n代表输出句子的长度（也就是单词的数量），d是代表向量组中每个向量的维度（这个一般是人为设定的，维度越高表达的信息越丰富，但是也不能太高，否则计算量太大）； V是指输入端的句子，其每个向量所组成的向量组。维度是m x t, m同样代表输入句子的长度，t则是代表向量组中每个向量的维度，与前面的Q其实是类似的。--d和t中的每个向量，都是代表一个单词或词组。 K是指输入端句子的每个向量，对应的各种权重。--K的维度是d x m。由于计算公式近似是Q*K）*V，最终结果会是n x t
Python退出多重循环的方法
当然我依旧爱你: tql,简直精美
Python退出多重循环的方法
ctotalk: 收了
分布式锁
不正经的kimol君: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指点！

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。