文章信息:
期刊:Transportmetrica B: Transport Dynamics
时间:2021
作者:Liang Zhang, Jianqing Wu, Jun Shen
文章思路:
研究方法:新的时间序列预测模型,即自注意力生成对抗网络(SATP-GAN)。由GAN模块和强化学习(RL)模块组成,自注意力层代替RNNs(递归神经网络)来捕捉时间序列数据的模式。
现有方法的缺点:
- 预测交通流量的目标往往不能达到缓解交通拥挤的预期效果。
- 在多步长交通流预测方面效果不佳。
- 现有方法,特别是递归神经网络的级联依赖结构,需要大量的乘法、内存访问和非线性变换等低能耗操作,无法保证高计算速度和低功耗。
- 为了获得最优的交通流预测性能,需要调整超参数优化以适应统计特性。 现有的方法往往依赖于手动设置。
文章贡献()创新点
- 提出了一个新的框架SATP-GAN,它利用自注意、GAN和RL机制来预测交通流量。
- 自注意机制取代了RNN(LSTM & GRU)的顺序性质
- GAN用于生成预测的新数据,使用RL来调整参数
- 在多步长交通流量预测中可以避免累积误差。一个时间步长的输出是从整个历史记录中计算出来的,而不仅仅是输入,它的当前隐藏状态可以学习长期依赖关系。
模型结构
将历史流量输入GAN模块 ----->对基于自注意机制的GAN模块和CNN进行训练 ----->通过RL模块调整GAN参数,使GAN模块稳定。
生成器:
前馈神经网络引入前馈神经网络用于从自注意层生成预测数据
Generator的超参数由self_attention的层数组成前馈神经网络FFNN的层数。
鉴别器的输入分别是真实的数据和预测数据,输出是分类结果,如预测数据是否为真,以及生成器和鉴别器的置信度值。
在CNN输出的基础上,第一个神经网络用于检测数据是否来自真实的数据;第二神经网络用于评估鉴别器;第三神经网络用于评估生成器。
鉴别器的超参数是CNN层的层数ncnn和CNN结构的滤波器数目nfilter;三个神经网络(ncnn,ndis,ngen)的层数。
强化学习模块:应用RL模块来调整生成器和鉴别器的超参数。
强化学习特点:没有监督数据,只有奖励信号
RL模块被分成两部分,分别使用Q学习算法来调整超参数.
【补充】Q学习:
整体流程:STAP-GAN算法不仅训练基于自注意力的GAN模型,而且使用RL方法来优化生成器(G)和鉴别器(D)的超参数。
- 输入交通流数据,初始化生成器(G)和鉴别器(D)的超参数,同时训练GAN和RL模型。
- 固定生成器(G)的超参数,训练GAN模型并使用RL模型来控制鉴别器(D)的超参数,直到RL模型找到最佳超参数。
- 固定鉴别器(D)的超参数,训练GAN模型并使用RL模型来控制生成器(G)的超参数,直到RL模型找到最佳超参数。
- 重复这两个步骤,G和D都将在RL模型的帮助下找到它们的最佳超参数。
算法流程:
实验部分:
数据集:兰州的一个十字路口收集了交通流量,其中包含了一个月内每小时的车辆数量。交通流四个不同的方向:西、东、北、南。选择了一种最先进的对象检测方法,从视频中可以通过交叉口的空间模式来区分落入四个方向的车辆。
结果:
总结:
- 生成器鉴别器模块简单,没有考虑数据的非欧结构,可尝试使用GCN(进行后续改进)
- 引入强化学习,来优化生成器(G)和鉴别器(D)的超参数(思想值得借鉴)
- 考虑多步长的时间序列预测
- 文章中对于RL模块描述较少,不清晰,引言部分对于以往模型的解释过多。
- 实验简单,只做了基线对比,可考虑加入消融,解释使用GAN以及强化学习的好处。考虑交通流的趋势季节相关性。