Transformer、多头自注意力机制

记录一下,自己的理解,不一定对!

注意力:

首先注意力很好理解,就是权重。例如 Y = (x1+....xn)/n, 每个x的权重是相同的1/n;引入注意力机制就是使得每个x的权重不一样,当然权重和还是为1。

自注意力机制:

还是上面那个例子Y = (x1+....xn)/n。我想让每个x的权重不一样,我怎么办呢??

用X表示{x1 .....xn}序列。我把X复制三遍,分别称作V, K ,Q。 我用Q和K点积(也不一定是用点积,这个地方是想得到各个x之间的关系),然后用softmax变成和为1的权重值,记为向量表示GAMA =[g1 g2 .....gn], g1+g2+...gn=1。这样我就得到了各个x的权重值,那么Y可以重新表示为,Y= GAMA * X 的转置——Y = g1*x1+g2*x2+......+gn*xn 。为什么叫自注意力机制呢,我觉得就是用自己的值算的注意力。

多头注意力机制

就是把求注意力机制的过程重复多遍——多头,然后集合到一起,通过线性层变成单头的大小。我觉得可以理解成,计算一遍可能有误差,我多计算几遍,然后变成一个值,就有点类似与求期望,减少误差。注意,不是多算几遍注意力,然后求注意力的平均;而是用多算的注意力去求最后的值,然后求结果的平均。

只是粗略理解,实际上还有很多线性层计算(W)。

大家可以去b站看看李航老师关于《 attention is all you need》的论文讲解。这个论文主要是解决序列信息(机器翻译之类的,所以有的地方它要加很多东西。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值