搞懂到底怎么做的多头注意力

最新推荐文章于 2024-06-23 20:46:13 发布

xhsun1997

最新推荐文章于 2024-06-23 20:46:13 发布

阅读量3.1k

点赞数 12

分类专栏： NLP 文章标签：机器学习深度学习算法人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_45478865/article/details/112471232

版权

NLP 专栏收录该内容

23 篇文章 3 订阅

订阅专栏

假设我们有个句子“数学应用题”，每一个字用一个64维的向量表示
也就是下面的每一个有颜色的一条框。

自注意力

我们如何做自注意力呢：
下面几幅图展示了这个过程
在这里插入图片描述

不再一个一个展示，假设最终到下面这幅图

因为句子长度是5，所以我们得到的是(5,5)的矩阵。
经过softmax之后，第一行表示的含义就是“数”这个字，对整个句子"数学应用题"的每一个字的相关程度.这一行就可以看成关于数字“数”的权重，然后对整个矩阵加权求和，如下图（为了简便，我没有softmax，知道这个意思就好）
在这里插入图片描述
以此类推，就得到了注意力矩阵，形状是(5,64)，如下图右上角矩阵

多头注意力

图中每一行有64维，假设我们要四个头，那么每个头显然是16维度
在这里插入图片描述
各个头之间是一起计算各自的注意力的，计算方式就是上面介绍的自注意力的计算方式。
所以我们最终会得到：
四个注意力矩阵，此时我们得到的张量的形状是(4,5,16)

注意虽然每一个头的颜色一样，但矩阵的值肯定是不一样的。最终将四个矩阵拼接，得到的注意力矩阵形状是(5,64)

关注

12
点赞
踩
31

收藏

觉得还不错? 一键收藏
2
评论
搞懂到底怎么做的多头注意力

假设我们有个句子“数学应用题”，每一个字用一个64维的向量表示也就是下面的每一个有颜色的一条框。自注意力我们如何做自注意力呢：下面几幅图展示了这个过程不再一个一个展示，假设最终到下面这幅图因为句子长度是5，所以我们得到的是(5,5)的矩阵。经过softmax之后，第一行表示的含义就是“数”这个字，对整个句子"数学应用题"的每一个字的相关程度.这一行就可以看成关于数字“数”的权重，然后对整个矩阵加权求和，如下图（为了简便，我没有softmax，知道这个意思就好）以此类推，就得到了注意力
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。