Attention，Multi-head Attention--注意力，多头注意力详解

最新推荐文章于 2024-08-05 23:14:30 发布

aliez_银

最新推荐文章于 2024-08-05 23:14:30 发布

阅读量4.3w

点赞数 43

分类专栏： nlp入门机器学习入门文章标签：机器学习人工智能深度学习 attention

本文链接：https://blog.csdn.net/m0_46614636/article/details/115218884

版权

2 篇文章 1 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

首先谈一谈attention。

注意力函数其实就是把一个query，一个key-value的集合映射成一个输出。

其中query，key，value，output（Attention Value）都是向量。

输出是values的加权求和，是query与当前key的相关程度。

Attention 函数的本质可以被描述为：

		一个查询（query）到一个系列（键key-值value）对的映射。

例如：计算A与B的attention，就是用A的Q与B的K-V来计算。
在这里插入图片描述

Scaled Dot-Product Attention（缩放点乘积注意力）（常用）

在这里插入图片描述

什么是Q（查询向量）、K（键向量）和V（值向量）？

每一个词向量，都有自己的QKV。通过矩阵变换而来，矩阵可以学习得到。

这里Thinking为词向量X1，Machine为词向量X2。

分别经过矩阵变换得到自己的QKV。

在这里插入图片描述

多头注意力机制

多头 Attention（Multi-head Attention）结构如下图。
在这里插入图片描述

在这里插入图片描述

这里说一下我的理解

八个头相当于八个不同的表征子空间，类似于apple拥有水果的含义，同时也有商标的含义，不同的含义由不同的表征子空间学习。

让其他词的Q来和apple这个词不同组的K-V进行attention。

再把所有的attention结果拼接起来，通过一个全连接层（矩阵变换）得到最终结果。

在这里插入图片描述

关注

专栏目录