2019 KDD oral
1 intro
1.1 背景
- 当重大事件(如地震、台风、大型节假日)发生时,人类行为变得与日常生活中截然不同
- 上图是发生地震之前/之后的mobility
- ——>这使得对大型事件下人群动态的预测变得非常具有挑战性,尤其在整个城市尺度。
- 因为现有的人群流动的预测模型聚焦于对通常情况下人的日常活动建模
- 而在论文设计的重大事件这类情况下,现有模型常采取的时间窗长度(例如半小时、1小时)有可能会错失短期内的突变从而无法做出准确的预测
1.2论文思路
- 论文旨在仅从当前瞬时的观测中提取“深度“趋势以生成对于短期内人群动态变化的准确预测
- 构建了一个名为DeepUrbanEvent的在线系统,连续地以最近的一系列全市人群动态观测值作为输入并对未来进行一系列预测作为输出
- 基于卷积递归神经网络,以类似于视频预测的的方式对高度复杂的时空数据进行建模
- 将整个城市区域按规则格网划分,论文注意到全市范围的人群动态事实上可以分解为两部分:
- 一方面是区域内的人群密度
- 另一方面是区域间的人群流动
- 前者可被视作节点特征,而后者可被视作边特征,两者相互依存
- ——>利用这一观察,论文提出利用两者的相互依存关系对两者同时建模联合预测,以同时增强对两者的预测能力
2 问题定义
- 将时空域按细粒度时间窗和规则网格离散化,人群密度和人群流动可表示为两个类视频的4维张量:
- 将全市范围的人群动态预测问题定义为人群密度和人群流动两者的多步联合预测
3 模型
3.1 多层ConvLSTM——处理人群密度
- 在视频学习中,ConvLSTM用卷积运算替代全连接LSTM单元内的矩阵乘法,以获取局部空间依赖关系
- 通过堆叠多层ConvLSTM,可以将感受野从临界网格拓展到局部区域
- ——>用去于处理人群密度的类视频张量(单通道节点特征)
- ——>用去于处理人群密度的类视频张量(单通道节点特征)
3.2 人群流动——卷积自动编码器
- 对于人群流动:
- 首先通过考虑所有可能的交通工具(如步行、驾车、乘地铁)中的最高时速(约为48km/h)、时间窗长度(以5 min为例)和单位网格大小(以500 m为例),推算出单位时间窗内最大穿行的格网数(约为ƞ/2)
- 进而对每一个网格构建以该网格为中心的ƞ×ƞ的局部图。
- ——>此局部图的集合包含了每个时间窗内全市每个格网所有可能的人群流动量。
- 考虑到每一个局部图的分布(以短程流动为主的类似二维高斯分布)的相似性(尤其在细粒度时间窗的情况下),论文提出利用卷积自动编码器(CNN AutoEncoder)来提取这种共有特征,同时进行降维。
3.3 多任务ConvLSTM模型
- 人群密度(节点特征)和人群流动(边特征)两个任务是高度相关的
- ——>采取多任务学习,利用上述两者的相互依存关系对两者同时建模,以增强对两者的预测能力
4 实验
- 使用是由日本移动运营商NTT DoCoMo获取的从2010年8月至2013年7月三年间的约160万用户的GPS轨迹数据
- 通过将原始GPS轨迹按5分钟的细粒度时间窗和500×500米的规则网格聚合将用户的个人信息隐藏
- 选取4个有代表性的重大事件:
- (1)3.11 东日本大地震(2011年3月11日)
- (2)2011年第15号台风(2011年9月21日)
- (3)新年(2012年1月1日)
- (4)东京马拉松(2011年2月27日)
- 使用每个事件的当天作为测试集,事件前的10天作为相应的训练集