注意力机制学习笔记

最新推荐文章于 2024-07-10 01:07:45 发布

chj65

最新推荐文章于 2024-07-10 01:07:45 发布

阅读量601

点赞数

分类专栏：注意力机制 transformer 文章标签：学习深度学习 transformer

本文链接：https://blog.csdn.net/chj65/article/details/127700005

版权

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Transformer总体架构图
Alt

Positional Encoding

位置编码器的作用
- 因为在Transformer的位置编码器结构中，并没有针对词汇位置信息的处理，因此需要在Embedding层后加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中，以弥补位置信息的缺失。

编码器的作用：
- 编码器用于对输入进行指定的特征提取过程，也称为编码，由N个编码器层堆叠而成。
编码器层的作用：
- 作为编码器的组成单元，每个编码器层完成一次对输入的特征提取过程，即编码过程。
由N个编码器堆叠而成
每个编码器由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

Multi-head Attention 多头自注意力
Add & Norm 规范化层
Feed Forward 前馈全连接子层

什么是注意力
- 我们观察事物时，之所以能够快速判断一种事物（允许判断错误），是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断，而并非是从头到尾的观察一遍事物后，才能有判断结果，正是基于这样的理论，产生了注意力机制
- 注意力机制是注意力计算规则能够应用的深度学习网络的载体，除了注意力计算规则外，还包括一些必要的全连接层以及相关张量处理，使其与应用网络融为一体，使用自注意力计算规则的注意力机制称为自注意力机制。
注意力计算规则
- 它需要三个指定的输入Q,K,V，然后通过公式得到注意力的计算结果，这个结果代表query在key和value作用下的表示，而这个具体的计算规则有很多种。
- Q是一段准备被概况的文本，K是给出的提示，V是大脑中的对提示K的延伸
- 当Q=K=V时，称作自注意力机制