城市异常事件精确预测:基于交互注意力机制的时空数据预测模型

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

精确实现城市中异常事件的预测,在智能城市中智能交通以及城市公共安全的应用中起着重要的作用。为实现该目的,研究工作从以下两个重要层面对时空数据进行建模: 1)学习异常事件在时间维度上的动态和高阶属性;2)不同维度数据模型(时间、空间以及语义维度)的交互的特性。在发表于IJCAI 2020的论文《Cross-Interaction Hierarchical Attention Networks for Urban Anomaly Prediction》中,黄超等提出了一种基于交互注意力机制的时空数据预测模型(CHAT),通过异构注意力模块的协同作用,可以实现对城市异常事件在不同维度上呈现出来的不同数据模式的自动学习。通过在实际时空数据上的实验测试,证明他们所提出的新算法相较于现在的算法呈现出更优的预测效果。本次报告,我们非常荣幸地邀请到博士毕业于美国圣母大学、现任京东美国硅谷研究院研究科学家的黄超,为大家详细介绍他们的这项研究工作。

 

黄超:博士毕业于美国圣母大学,现任京东美国硅谷研究院研究科学家。目前主要的研究方向主要为人工智能,数据挖掘,时空数据分析,推荐系统。在KDD, WWW, AAAI, IJCAI, SIGIR, CIKM, WSDM等数据挖掘和人工智能领域顶级会议发表论文30余篇。其中计算机学会A类14篇。以第一作者发表的论文曾获得WWW’2019最佳论文提名。与此同时,担任了KDD, WWW, AAAI, IJCAI, SIGIR, WSDM, CIKM, ICLR等会议的评审委员会委员,以及TKDE, TOIS, TIST, TOC, TKDD, TNNLS等期刊的长期审稿人。并且被WSDM’2020会议授予优秀评审奖。

一、背景

顾名思义,时空数据是同时具有空间和时间两个维度的数据。在收集数据时,除了数据本身的特性,还包括数据是何时发生的以及数据从何而来。因此,时空数据在特征上不仅涵盖了空间位置的经度、纬度,还包含时间戳信息。

图1 时空数据

为什么要研究时空数据?原因在于其应用的广泛性:(1)智能交通,比如查找智能驾驶方向、客舱推荐、行程时间估算等;(2)大数据驱动的城市规划,比如区域功能发现、基于轨迹的车道计划、救护站的选择等;(3)城市异常与安全,比如交通堵塞检测、人群流量预测、犯罪行为预测等。

图2 时空数据的应用

时空数据的预测,根据历史时空数据的分布和观测到的数据值对未来进行预测,比如依据过去一个月城市各区域交通拥塞、交通事故等的数据,达到预测未来一定时间内是否有类似数据发生的目的。如果可以提前预测区域交通事故的发生,那么就有利于机构或政府提前进行调度和预防。

图3 时空数据的预测

CHAT模型的目的是预测城市异常事件,这里的“异常”主要指交通拥塞、违章停车、突发噪音、建筑毁坏等。原始城市异常数据集合了异常类别、时间戳、经纬度三方面的信息,预测时需要按照区域进行映射,把数据映射到城市相应区域。区域的划分的方式取决于具体的应用,可以根据标准的格子,也可以根据道路、网络等。将整个城市划分为不同区域后,要做的就是预测下一个时间区间,某一异常类型是否会发生,例如预测区域A明天是否会发生交通拥塞或交通事故。

图4 城市异常预测

根据问题的描述,可将城市异常事件预测总结为图5所示的公式。将数据看作是三维的张量,I代表区域数,J代表时间片段数,K代表异常类别数。基于观测到的张量,预测在时间J+ d,每个区域i上每种犯罪类别k未来发生的情况。

图5 问题公式

 

二、CHAT模型

CHAT模型主要基于注意力机制对时空数据进行建模,整体框架大致可分为两个模块:(1)动态时间依赖建模;(2)分层注意力网络。时间维度上,将观测到的所有数据形式转换为每一天的序列形式,通过长短期记忆网络(Long Short-Term Memory,LSTM)进行时间动态编码。为了加强对过去以及未来信息的双向融合,模型采用的是双向长短期记忆网络( Bidirectional Long Short-Term Memory ,BiLSTM)。简单来说,就是将时间序列作为输入,得到时间维度的嵌入。针对时间维度上的嵌入,为了使RNN模块可以更精确地考虑到不同时间区间整体区域上的长期依赖,避免梯度爆炸问题,加入注意力机制。对基于LSTM编码出的每个嵌入,在时间维度上学习一个显式的权重值。最后,通过权重组合合成时间维度上整体的嵌入。

对于每个区域,同样也会有一个嵌入。并且由于信息是多维度的,每个城市的异常数据有多种类型,每种类型都有一个嵌入。因此对于三维的张量,就有对应的三个嵌入。CHAT模型的注意力机制之所以称为交互注意力机制,原因就在于模型考虑了两两维度之间的交互关系。在城市异常预测的时空场景中,不管是空间、时间,还是异常类别各种维度之间两两是相关联的,并具有一定的交互性。在分层注意力网络模块,把整体的嵌入进行交互,每一种交互也是利用注意力学习一个显式的权重值,最后把每种交互的类型做整体的计算,基于得到的整体嵌入进行预测。

图6 CHAT模型框架

 

三、实验结果

对从纽约市(NYC)收集的现实世界中的城市异常数据集进行了实验。将纽约市分为不同的区域,划分方法有两种:(1)高级地理区域比例,根据行政区信息,将纽约市划分为77个地理区域,每个单独的地理区域都称为高级区域;(2)细粒度的地理区域规模,使用路段(即从1级到5级的路段)将纽约市划分为862个地理区域,每个单独的分区地理区域都称为细粒度区域。实验共两组评估指标:(1)采用Marco-F1和Micro-F1衡量不同异常类别预测的准确性;(2)使用F1分数评估预测特定类别异常的性能。较高的Macro-F1、Micro-F1和F1分数都表示较好的预测性能。

图7 实验设置

图8显示了基于热度图纽约市8月和10月不同类别异常的地理分布,包括噪音、交通拥塞、违规停车、建筑使用四种情况。从图中可以发现,同一异常类型在不同时间段的数据分布是存在差别的,同一时间段不同异常类型在不同区域也是不同的。因此,在整个时空预测的场景中,数据的动态性不仅体现在时间和空间维度,也体现在异常类型维度。

图8 数据可视化

图9列出了所有比较方法的评估结果,针对细粒度和高级别区域规模分别设置了不同的训练和测试时间。结果表明,在不同的时间段,两种不同的区域划分方式下,CHAT的表现均优于其他基准。

图9 预测结果

如图10所示,进一步进行了实验,以评估CHAT预测细粒度区域规模不同异常类别的性能。总的来说,在大多数情况下,CHAT预测系统的性能均优于最新方法。

图10 特定异常类别的预测结果

为研究CHAT框架中某些子模块的有效性,还进行了消融实验。共考虑了所提出CHAT模型的三个变体,它们对应于不同的分析方面:(1)时间注意力机制的有效性CHAT-IA,没有temporal-wise gating机制的模型变体;(2)交互注意力机制的有效性CHAT-TA,CHAT的另一种形式,没有交互注意力机制来捕获交叉互动模式;(3)双向递归架构的有效性CHAT-UA,CHAT的简化版本通过单向LSTM网络和双阶段注意力机制对异常序列进行建模。图11给出了所有变体的比较结果,分别预测了不同类别的异常。结果表明,相比三个变体,框架CHAT-F的完整版本实现了最佳性能,所有的子模块对预测结果都是有利的。

图11 消融实验

在图12中介绍了CHAT中参数研究的评估结果,据此可以总结出以下观察结果:(1)一旦嵌入大小达到48,模型的性能就会趋于饱和。(2)增加序列长度会稍微改善整体性能。(3)前馈网络预测层中隐藏层数对性能的影响很小。

图12 参数研究

 

论文链接:

https://www.ijcai.org/Proceedings/2020/601

整理:何文莉

审稿:黄   超

排版:岳白雪

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

 

(直播回放:https://b23.tv/uBNeLm)

(点击“阅读原文”下载本次报告ppt)

已标记关键词 清除标记