【PaperInFive-时间序列预测】iTransformer:转置Transformer刷新时间序列预测SOTA(清华)

PaperInfive:五分钟了解一篇前沿论文
在这里插入图片描述


全文总结:本文提出iTransformer,无需修改任何模块,倒置建模多变量时间序列,将变量的整条序列独立地映射为词(Variate Token)。以变量为主体,通过注意力机制自然地挖掘以词为单位的多变量关联。此外,Transformer的前馈网络和层归一化互相配合,消弭变量测量单位之间的范围差异,学习适合于时序预测的序列特征。


题目:iTransformer:Inverted Transformers Are effective for Time Series Forecasting
作者:Yong Liu
期刊/会议:ICLR
时间:2024
链接https://doi.org/10.48550/arXiv.2310.06625
源码https://github.com/thuml/iTransformer

问题背景

在时序分析领域,受益于其强大的序列建模能力与可扩展性,Transformer广泛应用于时序预测,派生出了许多模型改进。然而,研究人员最近开始质疑基于transformer的预测器的有效性,这些预测器通常将同一时间戳的多个变量嵌入到不可区分的通道中,并将注意力集中在这些时间标记上,以捕获时间依赖性。近期涌现的线性预测模型,比起相对更复杂的Transformer及其变体,能够取得相当甚至更好的效果。由此,针对Transformer是否适合时序预测,引发了热烈讨论。

与此同时,最近的研究更加强调了确保变量的独立性和利用互信息,现有的研究大多以颠覆普通的Transformer架构来显式地建模多元相关性,否则则难以实现准确的预测。

针对上述问题,作者认为在多变量时间序列上,Transformer的建模能力没有得到充分发挥,主要基于以下几个原因:

  1. 现有的基于Transformer的预测器结构可能不适合多变量时间序列预测。现有的Transformer模型将同一个时刻的多个变量作为一个Token(Temporal Token),然而相同时间步长的点基本上表示完全不同的物理含义,这些点嵌入到一个Token中,消除了多元相关性;
  2. 由于过度的局部感受野由相同时间点表示的时间非对齐事件,单个时间步长的token可能很难揭示有益信息;
  3. 序列变化会受到序列顺序的很大影响,但在时间维度上采用置换不变注意力机制并不恰当

因此,Transformer在捕捉基本序列表示和描绘多元相关性方面被削弱,限制了其在不同时间序列数据上的能力和泛化能力。

基于此,作者提出Inverted Transformer,无需修改任何模块,倒置建模多变量时间序列。将变量的整条序列独立地映射为词(Variate Token)。以变量为主体,通过注意力机制自然地挖掘以词为单位的多变量关联。此外,Transformer的前馈网络和层归一化互相配合,消弭变量测量单位之间的范围差异,学习适合于时序预测的序列特征。

阅读全文请移步:【PaperInFive-时间序列预测】iTransformer:转置Transformer刷新时间序列预测SOTA(清华)

以下是使用Transformer进行时间序列单变量单步预测的代码示例: ```python import numpy as np import pandas as pd import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader # 定义Transformer模型 class TransformerModel(nn.Module): def __init__(self, input_dim, output_dim, d_model, nhead, num_layers, dropout): super(TransformerModel, self).__init__() self.d_model = d_model self.pos_encoder = PositionalEncoding(d_model, dropout) encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead, dropout=dropout) self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_layers) self.fc = nn.Linear(d_model, output_dim) def forward(self, src): src = src.permute(1, 0) # 将输入转置为(seq_len, batch_size) src = self.pos_encoder(src * np.sqrt(self.d_model)) output = self.transformer_encoder(src) output = self.fc(output[-1, :, :]) # 取最后一个时间步的输出 return output # 定义位置编码层 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len=5000): super(PositionalEncoding, self).__init__() self.dropout = nn.Dropout(p=dropout) pe = torch.zeros(max_len, d_model) position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) pe = pe.unsqueeze(0).transpose(0, 1) self.register_buffer('pe', pe) def forward(self, x): x = x + self.pe[:x.size(0), :] return self.dropout(x) # 定义时间序列数据集类 class TimeSeriesDataset(Dataset): def __init__(self, data, seq_length): self.data = data self.seq_length = seq_length def __len__(self): return len(self.data) - self.seq_length def __getitem__(self, idx): idx = idx + self.seq_length x = self.data[idx - self.seq_length : idx] y = self.data[idx] return x, y # 加载数据 data = pd.read_csv('data.csv')['value'].values.astype(np.float32) train_data = data[:1000] test_data = data[1000:] # 定义超参数 input_dim = 1 output_dim = 1 d_model = 32 nhead = 4 num_layers = 2 dropout = 0.2 lr = 0.001 batch_size = 32 num_epochs = 100 seq_length = 10 # 初始化模型和优化器 model = TransformerModel(input_dim, output_dim, d_model, nhead, num_layers, dropout) optimizer = torch.optim.Adam(model.parameters(), lr=lr) criterion = nn.MSELoss() # 训练模型 train_dataset = TimeSeriesDataset(train_data, seq_length) train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True) for epoch in range(num_epochs): for i, (x, y) in enumerate(train_loader): optimizer.zero_grad() y_pred = model(x.unsqueeze(-1)) loss = criterion(y_pred, y.unsqueeze(-1)) loss.backward() optimizer.step() print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch+1, num_epochs, loss.item())) # 测试模型 test_dataset = TimeSeriesDataset(test_data, seq_length) test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False) model.eval() with torch.no_grad(): y_pred_list = [] for x, y in test_loader: y_pred_list.append(model(x.unsqueeze(-1))) y_pred = torch.cat(y_pred_list, dim=0) y_true = torch.tensor(test_data[seq_length:], dtype=torch.float32).unsqueeze(-1) test_loss = criterion(y_pred, y_true) print('Test Loss: {:.4f}'.format(test_loss.item())) ``` 这段代码中,我们定义了`TransformerModel`类来实现Transformer模型,并定义了`PositionalEncoding`类来实现位置编码层。我们还定义了`TimeSeriesDataset`类来加载时间序列数据。 在训练模型时,我们使用`TimeSeriesDataset`类加载数据,并使用`DataLoader`类将数据分成小批量进行训练。我们使用均方误差损失函数和Adam优化器进行训练。 在测试模型时,我们使用`TimeSeriesDataset`类加载测试数据,并使用训练好的模型对测试数据进行预测。预测结果与真实值进行比较,计算测试集上的损失函数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值