self-attention计算过程

概念

self-attention从字面上看,就是自己对自己的注意力

了解过注意力机制的都知道Q,K,V,在self-attention中,Q,K,V是相同的字嵌入X乘以训练得到的权重得到的。
在这里插入图片描述
它也符合注意力机制的计算过程,主要分为以下三部分计算

阶段一

对输入的单词进行词嵌入得到X,X分别与权重计算得到了Q(查询向量),K(键向量),V(值向量)

得到Q,K,V之后,再计算得分,假设我们在为这个例子中的第一个词“Thinking”计算自注意力向量,我们需要拿输入句子中的每个单词对“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。
阶段一

阶段二

除以8(8是指论文中使用的键向量维数64的平方根,作用是让梯度更加稳定)。

然后通过softmax进行归一化,得到的数都是正数且和为1
归一化
这里的softmax分数决定了每个单词对编码当下位置(‘thinking’)的贡献。

阶段三

softmax求得分数乘以值向量,作用是,关注与Q相关的单词,而弱化不相关的单词。

然后进行加权求和。
阶段三

通过矩阵运算实现注意力机制

X是词嵌入矩阵,W是权重矩阵(训练得到),
在这里插入图片描述

处理矩阵,计算注意力的输出
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值