【深度学习中的注意力机制4】11种主流注意力机制112个创新研究paper+代码——时序注意力（Stride Attention）

985小水博一枚呀

已于 2025-03-17 13:50:47 修改

阅读量1.6k

点赞数 39

分类专栏：深度学习中的特征注意与提取与融合文章标签：深度学习人工智能科技 prompt 神经网络

于 2024-10-22 07:30:00 首次发布

本文链接：https://blog.csdn.net/gaoxiaoxiao1209/article/details/143079518

版权

深度学习中的特征注意与提取与融合专栏收录该内容

60 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

【深度学习中的注意力机制4】11种主流注意力机制112个创新研究paper+代码——时序注意力（Stride Attention）

文章目录

【深度学习中的注意力机制4】11种主流注意力机制112个创新研究paper+代码——时序注意力（Stride Attention）
1. 起源与提出
2. 原理
3. 发展
4. 代码实现
5. 代码逐句解释
6. 总结

1. 起源与提出

时序注意力（Temporal Attention）是为处理时序数据提出的一种注意力机制，最早出现在与序列数据相关的任务中，例如自然语言处理、时间序列预测、视频分析等。传统的序列模型，如RNN、LSTM、GRU等，虽然能够捕捉时序数据中的依赖关系，但在处理长序列时容易出现梯度消失和长期依赖问题。此外，这些模型通常会对序列中的每一个时间步一视同仁，无法对不同时间步的重要性进行有效建模。

为了缓解这些问题，时序注意力机制被提出，旨在通过加权机制来选择性地关注序列中的重要时间步。它能够根据序列中不同时间步的特征，动态地调整注意力权重，从而聚焦于对任务最为关键的部分。时序注意力的出现让序列模型在处理长序列时更加灵活，也改善了模型在长期依赖问题上的表现。

2. 原理

时序注意力的核心思想是为序列数据中的每一个时间步分配不同的权重，依据这些权重来计算输出。具体来说，时序注意力机制通过计算查询（Query）、键（Key）和值（Value）之间的相似性，确定每个时间步的重要性，并据此加权求和，最终产生输出。

假设我们有一个时序输入序列 $X=[x_1,x_2,....x_T]$ ，其中 $T$ 是时间步数，输入维度为 $d$ 。通过时序注意力机制，我们可以为每个时间步分配一个注意力权重：

查询、键、值：将输入序列映射为查询 $Q$ 、键 $K$ 和值 $V$ 。
注意力权重：通过查询和键的点积，得到时间步之间的相似度，然后通过 softmax 归一化得到注意力权重。
加权求和：使用注意力权重对值 $V$ 进行加权求和，得到加权后的输出序列。

具体步骤如下：

查询（Q）：代表当前时间步的信息。
键（K）：代表每个时间步的特征向量。
值（V）：代表每个时间步的输出。

时序注意力的关键是利用查询和键的点积来衡量不同时间步之间的相似性，并通过 softmax 函数归一化得到每个时间步的权重，进而对值进行加权求和，生成最终输出。

3. 发展

时序注意力是自注意力机制的一种扩展，逐渐被应用于各种需要处理时序数据的领域，包括：

自然语言处理：如机器翻译、文本摘要生成等任务中，时序注意力机制帮助模型更好地理解句子中各个单词的重要性。
时间序列预测：在金融、气象、能源等领域，时序注意力能够捕捉到时间序列中的长期依赖关系。
视频分析：视频中的每一帧都可以被看作一个时间步，时序注意力能够帮助模型选择性地关注重要的帧，忽略不相关的部分。

近年来，基于Transformer的模型大幅度推动了时序注意力的应用。例如，TimeSformer模型在视频分类中就使用了时序注意力来处理时序关系。

4. 代码实现

下面是一个基于时序注意力机制的简化实现，使用PyTorch框架来演示如何处理时序数据。

import torch
import torch.nn as nn
import torch.nn.functional as F

class TemporalAttention(nn.Module):
    def __init__(self, d_model):
        super(TemporalAttention, self).__init__()
        self.d_model = d_model  # 输入特征的维度
        
        # 查询、键、值的线性层
        self.wq = nn.Linear(d_model, d_model)
        self.wk = nn.Linear(d_model, d_model)
        self.wv = nn.Linear(d_model, d_model)
        
        # 最终输出的线性层
        self.fc = nn.Linear(d_model, d_model)
    
    def forward(self, x):
        # 输入 x: [batch_size, seq_len, d_model]
        batch_size, seq_len, d_model = x.shape
        
        # 计算查询Q、键K、值V
        Q = self.wq(x)  # [batch_size, seq_len, d_model]
        K = self.wk(x)  # [batch_size, seq_len, d_model]
        V = self.wv(x)  # [batch_size, seq_len, d_model]
        
        # 计算注意力分数: Q与K的点积, 然后除以sqrt(d_model)
        attention_scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_model, dtype=torch.float32))
        
        # 使用softmax进行归一化处理，得到注意力权重
        attention_weights = F.softmax(attention_scores, dim=-1)  # [batch_size, seq_len, seq_len]
        
        # 使用注意力权重对V进行加权求和
        attention_output = torch.matmul(attention_weights, V)  # [batch_size, seq_len, d_model]
        
        # 通过输出线性层
        output = self.fc(attention_output)  # [batch_size, seq_len, d_model]
        
        return output, attention_weights

# 示例使用
batch_size = 2
seq_len = 10
d_model = 16

# 随机初始化输入
x = torch.rand(batch_size, seq_len, d_model)

# 实例化时序注意力层
temporal_attention_layer = TemporalAttention(d_model)
output, attention_weights = temporal_attention_layer(x)

print("输出:", output)
print("注意力权重:", attention_weights)

5. 代码逐句解释

1. 导入库：

import torch
import torch.nn as nn
import torch.nn.functional as F

导入PyTorch库，其中nn用于构建神经网络层，F用于一些常用的函数，如softmax。

2. class TemporalAttention(nn.Module): 定义时序注意力类，继承自torch.nn.Module。该类包含了时序注意力机制的所有步骤。

3. __init__(self, d_model): 初始化时序注意力层：

d_model：输入特征的维度。
定义了用于生成查询（Q）、键（K）和值（V）的线性层 wq、wk 和 wv。
最后定义了一个输出线性层 fc，将注意力输出映射回输入维度。

4. forward(self, x): 前向传播函数：

输入 x 的形状为 [batch_size, seq_len, d_model]，其中 seq_len 是时间步的数量，d_model 是特征维度。
线性变换Q, K, V：将输入 x 通过线性层映射为查询 Q、键 K 和值 V，形状均为 [batch_size, seq_len,d_model]。
计算注意力分数：通过查询 Q 和键 K 的点积来计算注意力分数。为了防止数值过大，除以 $\sqrt{d-model}$ 进行缩放。
softmax归一化：使用 softmax 函数对注意力分数进行归一化，得到每个时间步的注意力权重。
加权求和：使用注意力权重对值 V 进行加权求和，得到注意力输出。
输出层：通过线性层 self.fc 将注意力输出映射回输入维度。