自注意力机制（转载）

最新推荐文章于 2024-07-02 14:42:25 发布

Wang Xianchun

最新推荐文章于 2024-07-02 14:42:25 发布

阅读量1.1k

点赞数 1

原文链接：https://zhuanlan.zhihu.com/p/364819787，https://zhuanlan.zhihu.com/p/365550383

版权

本文介绍了三种注意力机制：软注意、硬注意和自注意。软注意对所有输入项分配权重，计算量较大；硬注意只关注重要信息，节省计算资源但可能丢失细节；自注意通过输入项间的相互作用决定关注点，适合长输入的并行计算。在词向量编码中，独热编码忽略了词语相关性，而词向量编码则能体现词语间的关系。自注意力机制中的QKV（query, key, value）用于计算输入项间的相关度，从而确定关注重点。

摘要由CSDN通过智能技术生成

来源：知乎—super灬睿
地址：
https://zhuanlan.zhihu.com/p/364819787、https://zhuanlan.zhihu.com/p/365550383
今早看见了一篇讲解自注意力机制的，自注意力在Transformer中也有应用，这篇文章讲的很精炼，分享给大家

三种注意力机制

Soft/Global Attention(软注意机制)：对每个输入项的分配的权重为0-1之间，也就是某些部分关注的多一点，某些部分关注的少一点，因为对大部分信息都有考虑，但考虑程度不一样，所以相对来说计算量比较大。
Hard/Local Attention(硬注意机制)：对每个输入项分配的权重非0即1，和软注意不同，硬注意机制只考虑那部分需要关注，哪部分不关注，也就是直接舍弃掉一些不相关项。优势在于可以减少一定的时间和计算成本，但有可能丢失掉一些本应该注意的信息。
Self/Intra Attention（自注意力机制）：对每个输入项分配的权重取决于输入项之间的相互作用，即通过输入项内部的"表决"来决定应该关注哪些输入项。和前两种相比，在处理很长的输入时，具有并行计算的优势。

在文字处理中单词向量编码的方式

独热编码(one-hot encoding):用N位的寄存器对N个状态编码，通俗来讲就是开一个很长很长的向量，向量的长度和世界上存在的词语的数量是一样多的，每一项都表示一个词语，只要把其中的某一项置1，其他的项都置0，那么就可以表示一个词语，但这样的编码方式没有考虑词语之间的相关性，并且内存占用也很大
词向量编码(Word Embedding):将词语映射(嵌入)到另一个数值向量空间，可以通过距离来表征不同词语之间的相关性

自注意力机制

自注意力机制中的QKV（query，key，value）
能否可以理解成
通过将原来单词x通过W_q和W_k转化得到对应单词在数值向量空间中的位置，
这个在这里插入图片描述

然后通过自己x_i的q_i点乘其他x_j的k_j计算单词x_i与x_j的含义在某一个向量空间上的相关度
最后结合这个相关度将，通过输入项内部的"表决"来决定应该关注哪些输入项。
即在这里插入图片描述

Wang Xianchun

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自注意力机制（转载）

来源：知乎—super灬睿地址：https://zhuanlan.zhihu.com/p/364819787、https://zhuanlan.zhihu.com/p/365550383今早看见了一篇讲解自注意力机制的，自注意力在Transformer中也有应用，这篇文章讲的很精炼，分享给大家三种注意力机制Soft/Global Attention(软注意机制)：对每个输入项的分配的权重为0-1之间，也就是某些部分关注的多一点，某些部分关注的少一点，因为对大部分信息都有考虑，但考虑程度不一样，所
复制链接

扫一扫