实战案例：利用 Transformer 网络进行时间序列模型预测(附完整 Python 代码）

置顶 Python数据开发

已于 2022-12-24 08:36:29 修改

阅读量9.4k

点赞数 8

分类专栏：算法实战文章标签： transformer 深度学习人工智能

于 2022-12-23 22:34:13 首次发布

本文链接：https://blog.csdn.net/m0_59596937/article/details/128424817

版权

算法实战专栏收录该内容

17 篇文章

订阅专栏

我最近读了一篇非常有趣的论文：Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case。这可能是一个有趣的项目，从零开始实施类似的东西，以了解更多关于时间序列预测。

预测任务：

在时间序列预测中，目标是根据时间序列的历史价值预测其未来价值。时间序列预测任务的一些例子如下：

预测流感流行个案：Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case
能源产量预测：Energy consumption forecasting using a stacked non-parametric Bayesian approach
天气预报：MetNet: A Neural Weather Model for Precipitation Forecasting

例如，我们可以将一个城市的能源消耗量数据存储几个月，然后训练一个模型，该模型将能够预测该城市未来的能源消耗。这可以用来估计能源需求，因此能源公司可以使用这个模型来估计在任何特定时间需要生产的能源的最佳价值。

源码&技术交流

本文项目源码、数据、技术交流提升，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、添加微信号：dkl88191，备注：来自CSDN +研究方向
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：tf时间序列

时间序列预测实例

我们将使用的模型是一个编解码 Transformer，其中编码器部分作为输入的历史时间序列，而解码器部分以自回归的方式预测未来的价值。

解码器使用注意机制与编码器连接。通过这种方式，解码器可以学会在进行预测之前“关注”时间序列中最有用的部分历史值。

解码器使用 masked self-attention，使网络不能在训练运行过程中通过预测未来值来预测过去值来作弊。

编码器子网络：

解码器子网络：

完整模型：

自回归编/解码 Transformer

这个体系结构可以使用 PyTorch 构建，方法如下：

encoder_layer = nn.TransformerEncoderLayer(
    d_model=channels,
    nhead=8,
    dropout=self.dropout,
    dim_feedforward=4 * channels,
)
decoder_layer = nn.TransformerDecoderLayer(
    d_model=channels,
    nhead=8,
    dropout=self.dropout,
    dim_feedforward=4 * channels,
)

self.encoder = torch.nn.TransformerEncoder(encoder_layer, num_layers=8)
self.decoder = torch.nn.TransformerDecoder(decoder_layer, num_layers=8)

数据

每次我实现一种新的方法时，我都喜欢首先在合成数据上进行尝试，以便更容易理解和调试。这降低了数据的复杂性，并且更加关注于实现/算法。

我编写了一个小脚本，可以生成具有不同周期、偏移量和模式的非平凡时间序列。

def generate_time_series(dataframe):

    clip_val = random.uniform(0.3, 1)

    period = random.choice(periods)

    phase = random.randint(-1000, 1000)

    dataframe["views"] = dataframe.apply(
        lambda x: np.clip(
            np.cos(x["index"] * 2 * np.pi / period + phase), -clip_val, clip_val
        )
        * x["amplitude"]
        + x["offset"],
        axis=1,
    ) + np.random.normal(
        0, dataframe["amplitude"].abs().max() / 10, size=(dataframe.shape[0],)
    )

    return dataframe