self-attention详解与计算过程

最新推荐文章于 2024-06-02 05:04:32 发布

江小黎

最新推荐文章于 2024-06-02 05:04:32 发布

阅读量1.9k

点赞数 25

文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46317132/article/details/120491670

版权

self-attention学习笔记

一、问题的提出
二、改进
三、问题又来了
四、self-attention的提出
- 1.self-attention的输入输出
- 2.self-attention可以叠加使用
五、self-attention的结构
- 1、大致结构
六、输出向量计算步骤

一、问题的提出

在NLP中词是以一个向量的形式传入的，在进行推理过程中如果单纯的一个一个推理，对于机器翻译来说这是不可取的，比如 I saw a saw 在这里两个saw就是不同的意思，当这两个词以向量的形式传入，得到的结果当然是一样的，这肯定是不行的

二、改进

为了解决这个问题，应该把前后网络之间给连接起来，增加词与词的关联性
每一个词与前后的词都具有关联性
在这里插入图片描述

三、问题又来了

如果某一个词要考虑整个句子，那么我们是不是要把整个范围联结起来呢，我们知道，每个句子的长度都是不一样的，而且这个联结不能太长，太长的话会带来大量的参数以及运算，于是我们提出了self-attention

四、self-attention的提出

1.self-attention的输入输出

如图输入4个向量，输出4个向量，每一个向量都是考虑4个输入向量后得到的，也就是说，输出的向量都考虑到了所有的输入向量
如图所示

self-attention输入和输出

2.self-attention可以叠加使用

如图所示
self-attention 叠加

五、self-attention的结构

1、大致结构

输入向量：a1、a2、a3，a4

输出向量： b1、b2、b3、b4

箭头的意思就是关联性
可以看出b1是在考虑了a1、a2、a3，a4后得出来的，同理可得，b2、b3、b4也是这样
大概结构

六、输出向量计算步骤

1、第一步：找出输入向量的关系

首先找出a1与其他输入向量的关系，因为在语义中前文和后文是有较强的联结性的，如图
找出联结关系a

2、第二步：计算输入向量之间的关系

在这里有两种方式进行计算
第一种叫Dot-product

按照图中的模板，输入两个向量（绿色方块）分别将两个向量乘以 $W^{q}$ 和 $W^{k}$ 权重然后分别得到q和k，最后两个相乘得到两者的关系参数α，这种方式也是比较常用的

第二种叫Additive

结合第一种的运算可以看出第二种的运算，相加后送入了tanh函数最后再乘以一个权重w
计算方式

接下来看看再整体网络上的计算
在计算a1和其他部分的关系的时候
a1叫做 query
a2叫做 key
在上文中提到的计算
q1 = $W^{q}a^{1}$
k2 = $W^{k}a^{2}$
最后得到 $a_{1,2}$ = q1*k2
$a_{1,2}$ 又称为attention score

在这里插入图片描述

3、第三步通过关系生成4个向量

由上文可以可得到4个attention score
值得注意的是这里有一个求自己关联度的出现了a1和a1计算关系参数
在这里插入图片描述
得到了这4个向量

4、第四步送入soft-max函数

接下来把4个向量送入softmax函数，当然也不是说一定要softmax函数，也可以是其他函数，如果你发现更好的函数可以代替，效果更好也是可以的。
在这里插入图片描述

5、第五步生成第一个输出向量b1

如图，经过soft-max函数后生成 $a_{1,1}^{`} , a_{1,2}^{`},a_{1,3}^{`},a_{1,4}^{`}$ 4个向量

引入权重 $W^{v}$
构建新的向量v1，v2，v3，v4

v1 = $W^{v}a^{1}$

分别将v1、v2，v3，v4与 $a_{1,1}$ $a_{1,2}$ $a_{1,3}$ $a_{1,4}$ 相乘

在这里插入图片描述

最后相加就得到了b1

关注

25
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
self-attention详解与计算过程

本文详细描述了self-attention结构的发展，从简单的网络开始逐步演化成self-attention结构，并描述的其中的矩阵运算，输入输出向量的来历
复制链接

扫一扫

江小黎 CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

111万+: 周排名

11万+: 总排名

6473: 访问

: 等级

140: 积分

54: 粉丝

60: 获赞

1: 评论

55: 收藏

私信

关注

热门文章

最新评论

pyqt Process finished with exit code -1073741819 (0xC0000005)问题 onnx推理
CSDN-Ada助手: 非常感谢您的分享，对于这个问题也有所了解了。您的博客内容非常详细，讲解清晰易懂，相信会对很多人有所帮助。希望您能够继续分享更多有价值的内容，让更多人受益。建议您可以结合自己的实际经验，分享一些实用的技巧和经验，让读者更好地掌握相关知识。期待您的下一篇文章！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。