自注意力机制

最新推荐文章于 2024-01-22 00:13:39 发布

静妮子i

最新推荐文章于 2024-01-22 00:13:39 发布

阅读量952

点赞数 1

分类专栏：机器学习—李宏毅文章标签：深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/qq_39848541/article/details/127102530

版权

机器学习—李宏毅专栏收录该内容

13 篇文章 0 订阅

订阅专栏

自注意力机制

场景引入
self-attention
multi-head self-attention
position encoding

场景引入

vector set as input

语句输入
在这里插入图片描述图输入

output

每个向量都有一个标签（sequence labeling）
整个句子只有一个标签
or
输出不设限
在这里插入图片描述

sequence labeling

让全连接考虑上下文特性
如何确定不等长句子的window size
self-attention可以接受一整个sequence的信息，输入几个vector结合context就可以输出几个label
在这里插入图片描述

self-attention

请添加图片描述
注： b i ( 1 ≤ i ≤ 4 ) 是同时计算出来的， a i , j 为 q i 和 k j 的内积。

multi-head self-attention

多个QKV，并将结果拼接起来在这里插入图片描述

position encoding

对于Self-attention来说，并没有序列中字符位置的信息。例如动词是不太可能出现在句首的，因此可以降低动词在句首的可能性，但是自注意力机制并没有该能力。因此需要加入 Positional Encoding 的技术来标注每个词汇在句子中的位置信息。
每一个位置都有一个特有的位置向量ei
token新的向量表示将位置向量与表示向量融合以获得新的表示
请添加图片描述 self-attention与CNN对比
An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale
self-attention与RNN的对比
Transformers are RNNs:Fast Autoregressive Transformers with Linear Attention