【时空流量预测笔记2】基于协同全局局部学习的图注意力时空网络在城市移动流量预测中的应用

本文提出GASTN,一种利用DTW和注意力机制的时空预测网络,解决移动流量预测的精度问题。通过全局-局部模型协作学习,GASTN在保持泛化能力的同时提升预测准确性,实现在米兰数据集上的优异性能。
摘要由CSDN通过智能技术生成

虽然是泛读但是龟速)话说本来是想从整体把握文章思路的呃啊,结果又钻牛角尖了QAQ。

1.论文能解决什么问题?

广义:时空流量预测问题

具体:预测的精确度问题,从移动流量变化的空间相关性入手提高精确度,摒弃了物理上的空间关系、不再网格化的结构捕捉空间关系。

2.算法如何操作的?(重点看创新性)

基于DTW构图,采用注意力机制和结构RNN结构赋予边不同权重,综合了全局-局部模型的优点。

3.实现了什么效果?

预测效果较好,并且基于不同参数设置了多组baseline,体现了本文模型在不同方面的优越性。

Abstract

目前对流量预测的要求:及时性、高精度,以便智慧城市中主动网络服务的提供和资源分配。

本文的主要工作:graph attention spatial-temporal network (GASTN)图注意力时空预测网络、two attention mechanisms两种注意力机制、全局-局部合作学习策略。

1.Introduction

基于机器学习的大规模移动流量预测将是精确感知用户需求波动的关键,流量预测的意义:以促进智能网络资源分配和提供主动服务,此外对基站的睡眠控制和动态边缘计算服务部署都有意义。(这里的基站睡眠和边缘计算部分后续需要了解一下)

流量的空间相关性表现在:具有相同功能的区域(住宅区、商业区)具有相似的流量模式(昼夜、工作日和非工作日)

但是现有工作大多基于物理上的空间相关性上,忽略了具有相似流量模式的两个地区在地理上可能相距遥远的事实。不能捕获区域内流量变化的实际空间关系,并且可能引入不相关的相邻区域降低性能。

本文对策:1.对空间相关性问题:DTW、attention-based structural RNN(结构RNN)

2.对全局、局部模型的优劣:全局模型具有泛化能力,但在模型个性化方面不足;局部模型个性化预测能力好,但因训练样本少而过拟合→二者结合。

本文contributions:GASTN、spatial relation graph、DTW、attention based structural RNN、collaborative global-local learning scheme

os:虽然对流量预测的要求是多方面的,但当下大部分流量预测问题都聚焦于空间相关性问题、尤其注重打破物理上的空间相关性,从而提高预测的精确度。

2.Related Work

2.1Mobile Traffic Prediction

仍然以流量预测的发展历程切入,ARIMARNNCNN based methods(将空间分布映射到图像,且只考虑相邻区域的空间相关性)graph-based method(employs the graph convolutional LSTM based on a distance-based graph基于距离图的卷积LSTM),该方法忽略了与目标区域具有相似交通需求模式的遥远区域的影响(是指打破了物理空间相关性吗?),但图卷积网络计算量太大。

本文的方法不考虑实际距离,而是根据流量模式的相似性构图。即捕捉的不是地理距离关系,而是空间关系。

2.2Collaborative Learning

相关工作的方法主要是为了提高局部模型的鲁棒性和个性化,全局模型的性能是次要的。(我的理解是,局部模型为主,全局模型只是为提高局部模型的鲁棒性服务)

本文为提高城市的整体预测性能,设计了一种新的协作学习方法来增强城市流量预测的全局模型。

3. GASTN Framework for Mobile Traffic Prediction

 GASTN的体系结构由两部分组成:空间模块和时间模块。

3.1Problem Formulation

首先将预测问题公式化,t+1时刻的流量由该区域及其邻居前P个时间间隔下流量(Y、X)预测得来。

3.2 Construction of Spatial Relation Graph

空间关系图的构建

感觉类似于图注意力网络GAT。

由于移动流量中普遍存在频繁变化的动态和时移,传统的静态距离度量(如欧氏距离)往往不适合计算两个流量序列之间的相似性。因此,我们建议采用动态时间扭曲(DTW)算法,它能捕捉两个时间序列之间的模式相似性。

然后就是经典DTW公式

与图注意力网络不同的是,本文基于DTW计算连接两个节点的边的权重。

Step1:基于DTW得到边的权重,此时为稠密图,因每两个节点都通过一个加权边连接。

(这里归一化的DTW distance是怎么归一化的?) 

颜色越深代表距离其邻居节点越远。 中心区域的邻居可能在地理上靠近他们的邻居,而城市边缘区域(如郊区)的邻居可能很远。

Step2:接下来需要将稠密图变稀疏。最直接的办法是将权重低于一定值的边删除。即根据边缘权重找出每个区域的密切相关邻居,然后通过去除密集图中的低权重边缘来构建稀疏图。具体来说,我们根据每个节点的边的权重为其选择前N个最近的相邻节点,并考虑节点之间的关系是对称的,即如果v是u的邻居,即使u不在v的前N个最相邻节点中,节点u也将被选为节点v的邻居。在这种情况下,一些节点可能具有N个以上的邻居。(本文取N=15)

上图a可以看出,在考虑对称性的情况下,一部分区域将具有N个以上的邻居。由图b,城市中心的许多区域更有可能具有正好N个相邻节点,而城市边缘的一些区域往往具有大量的相邻节点。(郊区受到许多其他附近或偏远郊区的影响)

至此,消除了每个节点与其未选择的邻居之间的边,然后获得一个稀疏加权图。

 3.3Attention-Based Structural RNN for Traffic Forecasting

基于注意力的结构RNN(S-RNN)(这一部分之前没接触过,似懂非懂,看一下引文)

首先将图中的节点分为K类{C1~CK},因此共有K(K+1)/2种边。Eij表示连接Ci和Cj的边集。

对于每个类Ci中的节点,有一个相应的nodeRNN RCi来处理节点信息。同样,对于每种边Eij,使用edgeRNN REij来提取边信息(即,邻居信息),以便捕获空间相关性。

下面说明结构RNN的细节。

 edgeRNN:表征一类中不同邻居的重要性。输入邻居节点的时间序列,通过注意力机制进行整合。如下,计算权重并归一化,归一化分母是所有Cj类中的邻居节点,分子是邻居节点u,目标节点是v。其他参数需训练。

目标节点v对类Cj的依赖性表示为:

 利用LSTM作为时间序列模块来捕获邻居的有用信息,得到隐藏状态Y'(图右上角)及输出(图右)。

不同类别中的邻居数量可能因节点而异,这意味着edgeRNN的输入长度不是固定的。为了解决这个问题,我们首先计算出edgeRNN一次应容纳的最大邻居数量,并将其用作edgeRNN的固定输入大小。如果馈送到edgeRNN的邻居的数量小于指定的输入大小,则使用零向量来填充空部分。(RNN输入数据结构固定)

此外,为了有效地刻画实际邻居的重要性,避免填充值的负面影响,我们在计算注意力系数时采用了掩码机制来过滤相应的值。(掩码机制后续需要了解一下,文中没有详细说明)

nodeRNN:将所有edgeRNN捕获的不同类别中的有用邻居信息与目标节点自身的时间特征相集成,用于流量预测。

 然后h送入全连接层。(这一部分没看懂,也没搞清楚LSTM的作用,再看看吧)

 4. Collaborative Global-Local Learning

全局-局部协作学习,同时考虑了模型的泛化能力和个性化能力,并平衡了预测模型的泛化和个性化之间的权衡。

4.1Overview of Workflow for Collaborative Learning

协作学习过程主要包括以下四个阶段:

(1)使用移动流量的全局数据集,基于上述GASTN框架训练模型,以获得初始化良好的全局模型,用于后续操作;

(2)基于预先训练的全局模型,通过迁移学习为每个区域建立个性化的局部模型,然后用每个区域自己的数据细化每个区域的局部模型;

(3)借助于从局部模型中提取的知识对全局模型进行微调;

(4)通过迭代阶段(2)和(3)的操作,获得用于全市移动流量预测的微调全局模型直到它收敛。

 第二阶段和第三阶段之间的迭代是为了获得更好的性能和提高模型的鲁棒性。这两个阶段是方法的核心部分。

4.2Local Model Learning via Transfer Learning

通过迁移学习进行局部模型学习(后续详细了解)(总阶段的1、2步)

每个区域从头开始训练模型将面临较高的资源需求;局部数据样本不足和局部数据偏移导致模型性能不佳。 →利用全局模型作为每个区域的局部模型的模型初始化,然后用其局部数据样本对每个区域进行局部模型自适应。(将训练后的全局模型的相应参数作为源知识,转移到目标区域的局部GASTN模型中进行模型初始化,再微调)

4.3 Global Model Fine-Tuning via Knowledge Distillation

基于知识提取的全局模型微调(总阶段的3步)

采用知识提取的方法。

上图上半部分,训练后的局部模型对自身的训练数据进行预测(不需要划分训练集和测试集吗?不需要,现在还是训练阶段,不要混淆:首先把数据集划分为训练集和测试集,训练集用于训练全局模型,由全局模型迁移学习得到局部模型,用模型预测训练集的结果,得到损失函数,然后再调整参数值,这是训练的过程),从而可以得到所有区域(即全局)的预测值,这就是提取到的知识。用该知识重新训练全局模型。

硬标签(hard label):实际值

软标签(soft label):局部模型的预测值

全局模型的输出要分别与硬标签、软标签匹配,即图上可见的两个loss。

lamda是超参数。

5.Experiments

米兰数据集。滑动时间窗可以从一个数据集中得到一系列样本。

邻居节点上限N=15,节点的类K=3。

全局局部学习中,迭代次数E=3,lamda=0.9。

baseline和评价指标略。

基于网格结构提取空间信息,意味着会将一个区域的所有邻近区域视为其邻居,这可能会引入一些实际上不相关的邻居的噪声。

还探讨了K的影响;注意力机制的影响(本文使用了两种注意力机制);超参数lamda的影响。

为了体现方法优越性,设置了两个baseline:EnGASTN基于全局模型对自身进行微调;PerGASTN用协作全局-局部模型进行训练,但用局部模型预测。

6.Conclusion

在本文中,研究了移动流量预测,提出了一种新的图注意力时空网络(GASTN),它将移动流量的空间和时间模式集成在一起,以提取重要信息进行预测。远近空间相关性由空间关系图捕获,时空因素由基于注意力的结构RNN建模。此外,我们提出了一种协作的全局-局部学习方案,以进一步提高我们的预测模型的性能。我们在大规模移动流量数据集上评估了我们的方法,实验结果表明,我们提出的模型GASTN可以以更快的运行时间优于最先进的基线。此外,GASTN_CL的出色预测结果进一步说明了我们设计的全球-局部协作学习策略的有效性。

未来将基于我们的空间关系图构建,探索用于移动流量预测的图卷积网络方法。

  • 27
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值