1.背景
-
关于常见图和路网之间特定假设的差异
- 现有研究在图上的假设在路网中不成立。例如,引用图通常表现出网络同质性,这意味着互连节点比远程节点更相似。然而,空间相邻路段可能不一定在路网上显示类似的交通模式。在Figure 1中,路段 d h , g h , h i , h k dh,gh,hi,hk dh,gh,hi,hk是相互连接的,但是主路和辅路通常有不同的交通模式,例如车流量,因为主路行驶更频繁。
-
特征一致性问题。路网上的特征,如道路类型和车道数,通常在空间上接近的节点之间共享。
- 由于城市对不同的分区(如商业区和住宅区)表现出不同的功能,路网的某些部分通常具有相同的特征。
2.方法
- 扩展skip-gram模型,通过加入辅助交通上下文预测目标,实现交通模式的模型感知。
- 不仅能够用原始的skip-gram目标编码路网的图结构,还能够根据交通模式区分路段,从而解决第一个差异问题
- 利用轨迹数据来提取特征一致性导致的路网不可区分部分的行驶语义。
- 使用堆积的双向Transformer架构将轨迹数据中体现的转移模式捕获到表示中
- 两个新的训练任务:路径恢复和轨迹识别
- 使用堆积的双向Transformer架构将轨迹数据中体现的转移模式捕获到表示中
- 这两个模块都基于自监督的训练范式,其中交通模式和旅行语义被直接视为训练目标,而无需进一步的特定任务标记信息。
3.模型
3.1 Skip-gram Model
-
将图中的节点视为一个单词,图上的随机游走 S S S视为一个句子。
-
最大化在给定目标节点的上下文窗口内观察邻域节点的可能性,等于最小化以下损失函数
- N ( v i ) N(v_i) N(vi)指 v i v_i vi的上下文邻居集合。
- u i u_i ui是 v i v_i vi的embedding
3.2 辅助交通上下文预测任务
-
为了将交通模式融入表征,作者通过引入辅助交通上下文预测任务扩展skip-gram模型。
- 如限速、道路类型
-
对选定的特征进行二值化
- 假设从交通上下文特征集 { c n } n = 1 , 2 , ⋯ , N \{c_n\}_{n=1,2,\cdots ,N} {cn}n=1,2,⋯,N中选择道路类型 c n c_n cn作为特定特征,它有 ∣ c n ∣ |c_n| ∣cn∣种选项,于是被处理为 ∣ c n ∣ |c_n| ∣cn∣维标签向量,其中每个维度是0或1,表示目标路段的一个特定选项的存在。
-
给定目标路段 v i v_i vi及其N类交通上下文特征 π ( v i ) = { c n i } n = 1 , 2 , ⋯ , N \mathbf{\pi}(v_i)=\{c_n^i\}_{n=1,2,\cdots,N} π(vi)={cni}n=1,2,⋯,N,最小化以下损失函数
-
c n j i c^i_{nj} cnji是路段(节点) v i v_i vi的第 n n n个特征 c n c_n cn的第 j j j项
-
u i \mathbf{u}_i ui是 v i v_i vi的embedding
-
c n j \mathbf{c}_{nj} cnj是 c n j c_{nj} cnj的embedding
-
由此,作者将skip-gram的目标修改为
-
π ~ ( v i ) = { c ~ n i } n = 1 , 2 , ⋯ , N \mathbf{\tilde \pi }(v_i)=\{\tilde c_n^i\}_{n=1,2,\cdots,N} π~(vi)={c~ni}n=1,2,⋯,N, c ~ n i = [ σ ( u i T c n j ) ] j = 1 ∣ c n ∣ \tilde c_n^i=[\sigma(\mathbf{u}_i^T\mathbf{c}_{nj})]^{|c_n|}_{j=1} c~ni=[σ(uiTcnj)]j=1∣cn∣是路段 v i v_i vi的第 n n n个预测的上下文
-
u ~ i \mathbf{\tilde u}_i u~i是 v i v_i vi的增强交通嵌入,是原始嵌入 u i \mathbf{u}_i ui和所有交通上下文预测 π ~ ( v i ) \mathbf{\tilde \pi }(v_i) π~(vi)的concatenation
-
w ~ j \mathbf{\tilde w}_j w~j是节点 v j v_j vj的上下文嵌入
-
最终损失函数是
- α n \alpha_n αn是控制辅助任务权重的超参数
3.3 双向自注意网络
-
Input Embedding Layer
- 由于自注意网络并行处理输入token,会导致丢失轨迹的顺序信息,因此这里再加入一个可学习的位置嵌入
- x i = u i + p i \mathbf{x_i}=\mathbf{u_i}+\mathbf{p_i} xi=ui+pi
- u i \mathbf{u_i} ui是路段嵌入, p i \mathbf{p_i} pi是位置嵌入
- 由于自注意网络并行处理输入token,会导致丢失轨迹的顺序信息,因此这里再加入一个可学习的位置嵌入
-
多头自注意力层
-
残差连接+层标准化
-
全连接
3.4 训练——预训练任务
3.4.1 路线恢复
- 屏蔽连续路段。如果随机屏蔽每个路段,skip-gram可能很好地学习到图结构,从而轻易判断出轨迹中某个路段的下一个路段,这就导致MLM无法学到有用的东西。因此采用屏蔽连续路段的方式训练。
3.4.2 轨迹判断
- 判断给定的轨迹是否是真实的轨迹。真实的行程是从轨迹数据库中采样的,而虚假的行程是通过在道路网络上采样的随机行走生成的。
- 捕获转移模式。通过观察某些子序列不遵循正常的转移模式来识别假行程
4.下游任务
-
路段任务
-
道路标签分类
-
交通推断
-
-
轨迹任务
- 轨迹相似性搜索
- 行程时间估计