transformer的QKV是如何得到的

最新推荐文章于 2024-04-24 13:35:29 发布

m0_71929343

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量3.1k

点赞数 1

文章标签： python Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71929343/article/details/129712963

版权

在Transformer中，QKV是通过输入序列中每个元素的嵌入向量（embedding）通过三个线性变换得到的。具体来说，对于输入序列中的每个元素，都可以通过一个嵌入矩阵将其转化为一个固定维度的向量表示。假设嵌入向量的维度为d，那么对于输入序列中的每个元素，都可以得到一个d维的嵌入向量表示。然后，对于每个嵌入向量，通过三个不同的线性变换（即Query、Key、Value变换）得到三个向量Q、K、V，这些向量的维度仍然是d。其中，Query向量表示当前元素的查询向量，Key向量表示所有元素的关键字向量，Value向量表示所有元素的值向量。这三个向量的计算公式如下：$$\begin{aligned}Q &= W_{Q}E\K &= W_{K}E\V &= W_{V}E\end{aligned}$$其中，E为输入序列中的嵌入向量矩阵，$W_Q$、$W_K$、$W_V$分别为Query、Key、Value向量的权重矩阵。通过这三个变换，每个元素都会得到一个Query向量、一个Key向量和一个Value向量。这些向量将用于计算该元素与其他元素之间的注意力分数，进而得到注意力权重和自注意力表示。这就是Transformer中使用QKV的方法。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer的QKV是如何得到的

假设嵌入向量的维度为d，那么对于输入序列中的每个元素，都可以得到一个d维的嵌入向量表示。其中，Query向量表示当前元素的查询向量，Key向量表示所有元素的关键字向量，Value向量表示所有元素的值向量。这三个向量的计算公式如下：$$\begin{aligned}Q &= W_{Q}E\K &= W_{K}E\V &= W_{V}E\end{aligned}$$其中，E为输入序列中的嵌入向量矩阵，$W_Q$、$W_K$、$W_V$分别为Query、Key、Value向量的权重矩阵。
复制链接

扫一扫

m0_71929343 CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

202万+: 周排名

172万+: 总排名

4189: 访问

: 等级

24: 积分

0: 粉丝

4: 获赞

0: 评论

2: 收藏

私信

关注

热门文章

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

self-attention的作用

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。