注意力机制

注意力机制


一;典型的注意力机制(例如在Transformer中使用的)实现过程通常包括以下几个步骤:

1、input的转化
将输入数据转化为一组键(key)、值(value)以及查询(query)向量。对于每一个输入数据,通常通过三个不同的线性变换层分别生成键、值和查询向量。这些向量可以看作是原始输入数据在不同空间的投影。

在注意力机制中,键(key)、值(value)和查询(query)向量的命名源于信息检索和数据库查询的概念如下。
键(Key)向量:
键向量代表了所有可能被查询到的信息的特征或索引。它类似于数据库中的键,用于标识和匹配相关信息。
值(Value)向量:
值向量是与键相关联的实际数据。它是查询到的信息的内容或答案。
查询(Query)向量:
查询向量代表了当前处理的输入数据的特征或意图。它是用来查找相关信息的"查询"。

2、计算注意力权重
对查询向量和键向量进行点积操作,然后除以一个缩放因子(通常是键向量的维度的平方根),以获得注意力分数。接着,对这些分数进行softmax操作,得到归一化的注意力权重。

3、加权求和
使用注意力权重对值向量进行加权求和,得到注意力输出。

4、组合注意力头
在多头注意力机制中,以上步骤会并行执行多次,每次使用不同的参数,得到多个注意力输出,然后将这些输出拼接起来,经过一个线性变换层,得到最终的输出。

对于输入 X X X,生成查询 Q = X W Q Q =XW_Q Q=XWQ,键 K = X W K K =XW_K K=XWK和值 V = X W V V =XW_V V=XWV,其中 W Q W_Q WQ W K W_K WK W V W_V WV是可训练的权重矩阵。
计算注意力权重 Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q,K,V)=\text{softmax} (\frac{{QK}^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V,其中 d k d_k dk是键向量的维度。

二;注意力机制含义解读

1、注意力机制的基本原理

注意力机制最初是在自然语言处理中的Transformer模型中引入的。它通过计算查询(query)、键(key)和值(value)之间的相似度来分配注意力权重。具体来说:
****Query(查询)**:通常表示当前时间步需要关注的信息。
****Key(键)
:表示存储在记忆中的信息的特征。
****Value(值)
😗*表示存储在记忆中的实际信息,

注意力权重是通过Query和Key之间的相似度计算出来的,然后这些权重应用到Value上,以得到加权后的输出。

2、自适应事件融合中的Query和Key
在自适应事件融合中,趋势和事件预测的融合需要通过注意力机制来完成。具体来说:
**Query:**用来提取当前时间步趋势信息的特征。
**Key:**用来提取所有事件信息的特征。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值