注意力机制

你再翻一页就好了

于 2024-07-28 21:25:08 发布

阅读量297

点赞数 3

文章标签： python 注意力机制

本文链接：https://blog.csdn.net/qq_41542141/article/details/140708991

版权

注意力机制

一；典型的注意力机制（例如在Transformer中使用的）实现过程通常包括以下几个步骤：

1、input的转化
将输入数据转化为一组键（key）、值（value）以及查询（query）向量。对于每一个输入数据，通常通过三个不同的线性变换层分别生成键、值和查询向量。这些向量可以看作是原始输入数据在不同空间的投影。

在注意力机制中，键（key）、值（value）和查询（query）向量的命名源于信息检索和数据库查询的概念如下。
键（Key）向量：
键向量代表了所有可能被查询到的信息的特征或索引。它类似于数据库中的键，用于标识和匹配相关信息。
值（Value）向量：
值向量是与键相关联的实际数据。它是查询到的信息的内容或答案。
查询（Query）向量：
查询向量代表了当前处理的输入数据的特征或意图。它是用来查找相关信息的"查询"。

2、计算注意力权重
对查询向量和键向量进行点积操作，然后除以一个缩放因子（通常是键向量的维度的平方根），以获得注意力分数。接着，对这些分数进行softmax操作，得到归一化的注意力权重。

3、加权求和
使用注意力权重对值向量进行加权求和，得到注意力输出。

4、组合注意力头
在多头注意力机制中，以上步骤会并行执行多次，每次使用不同的参数，得到多个注意力输出，然后将这些输出拼接起来，经过一个线性变换层，得到最终的输出。

对于输入 $X$ ，生成查询 $Q =XW_Q$ ，键 $K =XW_K$ 和值 $V =XW_V$ ，其中 $W_Q$ ， $W_K$ ， $W_V$ 是可训练的权重矩阵。
计算注意力权重 $\text{Attention}(Q,K,V)=\text{softmax} (\frac{{QK}^T}{\sqrt{d_k}})V$ ，其中 $d_k$ 是键向量的维度。

二；注意力机制含义解读

1、注意力机制的基本原理

注意力机制最初是在自然语言处理中的Transformer模型中引入的。它通过计算查询(query)、键(key)和值(value)之间的相似度来分配注意力权重。具体来说:
****Query(查询)**:通常表示当前时间步需要关注的信息。
****Key(键):表示存储在记忆中的信息的特征。
****Value(值)😗*表示存储在记忆中的实际信息,

注意力权重是通过Query和Key之间的相似度计算出来的，然后这些权重应用到Value上，以得到加权后的输出。

2、自适应事件融合中的Query和Key
在自适应事件融合中，趋势和事件预测的融合需要通过注意力机制来完成。具体来说：
**Query:**用来提取当前时间步趋势信息的特征。
**Key:**用来提取所有事件信息的特征。

你再翻一页就好了

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
注意力机制

对查询向量和键向量进行点积操作，然后除以一个缩放因子（通常是键向量的维度的平方根），以获得注意力分数。在多头注意力机制中，以上步骤会并行执行多次，每次使用不同的参数，得到多个注意力输出，然后将这些输出拼接起来，经过一个线性变换层，得到最终的输出。在注意力机制中，键（key）、值（value）和查询（query）向量的命名源于信息检索和数据库查询的概念如下。注意力权重是通过Query和Key之间的相似度计算出来的，然后这些权重应用到Value上，以得到加权后的输出。它是查询到的信息的内容或答案。
复制链接

扫一扫