自注意力机制(转载)

本文介绍了三种注意力机制:软注意、硬注意和自注意。软注意对所有输入项分配权重,计算量较大;硬注意只关注重要信息,节省计算资源但可能丢失细节;自注意通过输入项间的相互作用决定关注点,适合长输入的并行计算。在词向量编码中,独热编码忽略了词语相关性,而词向量编码则能体现词语间的关系。自注意力机制中的QKV(query, key, value)用于计算输入项间的相关度,从而确定关注重点。
摘要由CSDN通过智能技术生成

来源:知乎—super灬睿
地址:
https://zhuanlan.zhihu.com/p/364819787、https://zhuanlan.zhihu.com/p/365550383
今早看见了一篇讲解自注意力机制的,自注意力在Transformer中也有应用,这篇文章讲的很精炼,分享给大家

三种注意力机制

  1. Soft/Global Attention(软注意机制):对每个输入项的分配的权重为0-1之间,也就是某些部分关注的多一点,某些部分关注的少一点,因为对大部分信息都有考虑,但考虑程度不一样,所以相对来说计算量比较大。
  2. Hard/Local Attention(硬注意机制):对每个输入项分配的权重非0即1,和软注意不同,硬注意机制只考虑那部分需要关注,哪部分不关注,也就是直接舍弃掉一些不相关项。优势在于可以减少一定的时间和计算成本,但有可能丢失掉一些本应该注意的信息。
  3. Self/Intra Attention(自注意力机制):对每个输入项分配的权重取决于输入项之间的相互作用,即通过输入项内部的"表决"来决定应该关注哪些输入项。和前两种相比,在处理很长的输入时,具有并行计算的优势。
    在这里插入图片描述

在文字处理中单词向量编码的方式

  1. 独热编码(one-hot encoding):用N位的寄存器对N个状态编码,通俗来讲就是开一个很长很长的向量,向量的长度和世界上存在的词语的数量是一样多的,每一项都表示一个词语,只要把其中的某一项置1,其他的项都置0,那么就可以表示一个词语,但这样的编码方式没有考虑词语之间的相关性,并且内存占用也很大
  2. 词向量编码(Word Embedding):将词语映射(嵌入)到另一个数值向量空间,可以通过距离来表征不同词语之间的相关性

自注意力机制

自注意力机制中的QKV(query,key,value)
能否可以理解成
通过将原来单词x通过W_q和W_k转化得到对应单词在数值向量空间中的位置,
这个在这里插入图片描述

然后通过自己x_i的q_i点乘其他x_j的k_j计算单词x_i与x_j的含义在某一个向量空间上的相关度
最后结合这个相关度将,通过输入项内部的"表决"来决定应该关注哪些输入项。
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值