注意力机制的qkv

wangmarkqi

已于 2023-10-26 10:36:51 修改

阅读量1.4k

点赞数 2

文章标签： transformer

于 2023-09-11 11:55:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangmarkqi/article/details/132803778

版权

关于这个的介绍网络上非常非常多,我用个通俗的例子解释下.
整个注意力机制处理下来,词嵌入所表达的句子矩阵维度是不变的. 比如有一句话,3个词,每个词用10个维度向量表达.进去之前(3,10),transfomer以后还是这个维度.

q和k合起来干一个事情,就是搞明白这3个词之间彼此之间的权重关系,那怎么干了:

词向量维度 (1,10), 整个句子是(3,10),和q乘,维度保持不变 (3,10),所以q的维度必须是(10,10)
词向量维度 (1,10), 整个句子是(3,10),和k乘,维度保持不变 (3,10),所以k的维度必须是(10,10)
上面两个(3,10)经过那个公式,要表达3个词之间的关系,即使你不动脑子,也知道结果的维度一定要是(3,3),

这么一通操作,就得到了一个(3,3)的矩阵,就好像统计的协方差矩阵然后再看v

词向量维度 (1,10), 整个句子是(3,10),和v乘,维度保持不变 (3,10),所以v的维度必须是(10,10)
把上面的(3,3)的协方差矩阵乘以v,维度不变, 当然,理论上v也可以是(3,11),但是transfomer可也不是一个就完了,是一个套一个,过一个trans就变身了,下一个不好设计了,所以一般也是10.

然后再说下,这个qkv针对每个字变化,还是针对每个句子变化.

事实上,qkv不是针对句子和字来设定的,而是一个头不变. 比如词嵌入是700维的. 那么首先产生qkv的就是700*700维度,他们在一个头里面不变,和句子和字变了无关,类比于卷积核,全局共享.

计算一下注意力机制的参数量更明白这点:

以700维度词嵌入为例,那么q,k,v合计参数700 * 700 * 3,约等于150万
一个transformer5个头,那么150 * 5,约等于750万
一共搞2次transformer,750*2,约等于1500万
此外词嵌入本身也是可以训练的

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

wangmarkqi CSDN认证博客专家 CSDN认证企业博客

码龄10年

46: 原创

2万+: 周排名

3万+: 总排名

6万+: 访问

: 等级

935: 积分

24: 粉丝

72: 获赞

23: 评论

115: 收藏

私信

关注

热门文章

分类专栏

3d编程 2篇
python 14篇
python java 1篇
运维 1篇
linux 1篇
flutter 4篇
micropython 2篇
stm32 3篇
javascript 1篇
rust 6篇
golang 1篇
c++ 2篇
c++ python 2篇
docker 1篇

最新评论

Rust diesel win10安装填坑
realcoolfly: win11连不上，mysql这个坑我也踩了，但是后面解决后，还是连不上mysql
python调用dll三种方式
wangmarkqi: 当然,源文件和动态链接必须有一个
cvat 外网部署阿里云
额嗯146: 请问你们解决了吗，我把ip改过以后运行docker-compose up -d是成功的，但是浏览器就是无法访问，端口是开着的
向量沿着另一个向量旋转-旋转轴和四元数
syl0615: 謝謝，這段代碼背後的數學公式是什麼呢?
python调用dll三种方式
bactone_li: 大佬问一下，用cython方法写wrap.pxd文件时，除了要有“HCNetSDK.h”文件，还是否要下载对应c源文件？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。