TKDE 2022
1 Intro
- OD流数据在收集上比较困难
- 收集数据开销大
- 有隐私泄露的风险(因为OD数据是由不同个体的轨迹组成的)
- 由不同个体轨迹组成的人口分布,更常见也更易收集
- ——>本篇论文是第一篇研究如何使用人口分布来预测OD流(论文称之为pop2flow问题)
- 但是,人口分布只是OD流的聚合结果,仅仅从人口分布预测OD流是一个困难的任务,因为人口分布可以提供的信息是远远不够的
- 极其庞大的解空间+及其小的限制
- ——>很难得到最优的结果(一个区域人口数量的增大,可能是由很多不同区域的人口流入导致的)
- 当region的数量增多的时候,这种问题会变得更严重
- 极其庞大的解空间+及其小的限制
- pop2flow的挑战(以及论文提出的模型,Graph-based Spatial-temporal Embedding with Dynamic Fusion (GSTE-DF)是如何解决他们的)
- 1)区域间复杂多样的关联性
- ——>建立了一个基于距离的全连接图,每个点表示一个region
- ——>使用带attention的GCN(cheb net)来提取空间依赖性
- 2)区域间关联复杂的时间动态性
- eg,住宅区和商业区之间的关联性,早上和中午是相反的
- ——>通过带attention的时间卷据来提取时间依赖性
- 3)区域不同的功能也会影响人口流动
- ——>提出一个自适应的权重embedding融合模型,来将区域中不同POI的分布信息融入OD预测中
- 1)区域间复杂多样的关联性
2 Preliminary
2.1 图的建立
- 建立一个全连接图
- 全连接图可以建模各个区域间的关联性
- 权重是两个区域间距离的平方的倒数
- 距离定义为:
2.2 问题定义
-
k时刻区域si的人口分布:
-
-
P是k时刻的的轨迹集合
-
是其中的一条轨迹
- gi是轨迹中的一个点,表示gi在区域si中
- ||表示集合中的元素数量
-
- 使用Xk表示k时刻的所有区域
-
- OD流
- 使用Fk表示k时刻的所有OD流
- OD预测
- 使用历史人口分布数据{Xt|t<k}预测未来的OD矩阵Fk
3 模型
3.1 空间特征提取
3.1.1 空间attention
- 是第r层的输入
- 是第r层输入的channel数
- Tr-1是第r层的时间维度
- 都是可学习参数
- ——>S是一个attention 矩阵,维度大小N*N
3.1.2 GCN
这里使用的是ChebNet(和ChenNet唯一的不同是,这里加了一项attention矩阵)【不过个人觉得这边的attention矩阵应该是S'?】
输入是,输出是
3.2 时间特征提取
3.2.1 时间Attention
E'是一个的注意力矩阵
3.2.2 时间特征提取
1D 卷积
输入是,输出是
3.3 OD流预测
3.3.1 OD-nets
- region作为源区域和目标区域时,作用时不一样的
- ——>作者使用了两个MLP来分别建模region作为源区域和目标区域的特征
- <>表示内积
3.3.2 自适应权重融合
- 论文进一步使用区域的POI分布来提升不同区域feature提取的能力
- 使用了两个基于MLP的POI特征提取器(源区域一个、目标区域一个),来生成源区域和目标区域特征embedding的权重
3.4 Loss function
- 使用过去l个时刻的人口分布数据,预测未来的k个OD流
4 实验
4.1 Metrics
4.2 实验结果
4.3 区域&时间划分不同粒度对模型的影响
4.4 四个不同的OD对预测和ground-truth比较
4.5 OD矩阵热点图 ground-truth和预测结果对比
4.6 ablation study
4.7 参数敏感度
- input slice 不能太长or太短
- 当ChebNet的K大于等于3后,基本上效果就比较平稳了
- GCN和1D卷积的kernel数量 增加,效果回越来越好,但超过64之后,基本上效果提升的有限