Predicting mobile users' next location using the semantically enriched geo-embedding model and the multilayer attention mechanism
2023 Computers, Environment and Urban Systems
1 intro
- 之前next location prediction的方法忽视了位置和时空信息之间的隐含相关性,从而限制了模型在位置预测准确性方面的表现
- 论文提出了一种GEMA-BiLSTM(地理嵌入和多层注意力-双向长短期记忆)模型,用于预测用户移动中的下一个位置
- 结合了位置和时空信息,提取了人类移动的语义
2 方法
2.1 方法整体
- 提出了一个名为GEMA-BiLSTM的位置预测框架,将地理嵌入、多层注意机制和Bi-LSTM结合
2.2 地理信息嵌入
2.3 时空语义特征向量
2.4 BiLSTM
2.5 局部&全局注意力
3 实验
3.1 研究数据
- 深圳
- 从一家大型通信运营商处收集了1630万条移动电话信令数据(MPSD)轨迹
- MPSD包含了重要信息,包括用户ID、时间记录和地理位置
- 统计了所有用户连续记录的时间间隔,发现70.47%的时间间隔在30到60分钟之间
- 根据统计分析,深圳市共有5943个基站
- 基于基站绘制了Voronoi图,得到Thiessen多边形,并划分并统计了深圳市移动电话基站的服务区域
- 通过计算所有Voronoi多边形的最近邻距离,可以比较模型的性能,例如距离误差水平
- 大约92%的基站最近邻距离小于500米
- 使用了2012年深圳的Autonavi POI数据来计算空间语义特征
- 每行POI数据包含五个基本属性:纬度、经度、POI类别、名称和地址
- 有15个原始POI类别,包括餐饮服务、工厂、政府机构、交通设施、教育和文化机构、住宅社区、购物商店、汽车服务、酒店、金融机构、商务办公、娱乐场所、医疗机构、旅游景点和行政地标
3.2 数据预处理和训练细节
3.2.1 数据预处理
- MPSD经过四个步骤预处理
- 选择轨迹组成数据集
- 选择每小时至少有一个位置的轨迹。
- 当某一时间间隔内有多个位置时,基于最长停留时间保留一个位置作为锚点
- 选择轨迹数据用于词嵌入
- 为了有效嵌入CBOW模型,数据集中的轨迹需要对应每小时,并包含总共24个位置
- 在CBOW模型中,嵌入向量大小设为300,窗口大小c设为5
- 组织输入数据
- 记录数据组织如下:{l1, t1, s1; l2, t2, s2; …; li, ti, si; …; lM, tM, sM}
- li是Voronoi图中用户移动记录的第i个位置的Thiessen多边形索引。
- ti表示第i次离散化时刻。
- si表示第i个位置的地理语义向量,由Thiessen多边形中不同POI类别的吸引力组成
- 在比较模型中,训练数据集的形式重新组织
- 输入数据形式为:{l1, t1; l2, t2; …; li, ti; …; lM, tM}
- 记录数据组织如下:{l1, t1, s1; l2, t2, s2; …; li, ti, si; …; lM, tM, sM}
- 选择轨迹组成数据集
3.2.2 POI重新分类
- 为了确定用户的出行语义,按照Li等人(2021)建议重新分类了POI类别
- 使用TF-IDF算法计算了Thiessen多边形内不同POI类别的比例
- 具有最高吸引力的POI类别作为基站的功能语义