1 文章概述
文章使用heterogeneous information network描述出行者的出行轨迹信息以及出行语义信息,比如A早上7点到饭店,并在饭店呆了1个小时。然后基于meta-path刻画了任意两个user的similarity。
note:关于heterogeneous information network(异构信息网络)可以看下述两个链接,看完后便可以有一个大致的理解。
HIN简介
HIN简介并带有例子说明,看完可以较好了解HIN
2 具体内容及方法论
2.1 HIN网络
作者定义了HIN网络如下:包括出行者、出行到达地点、在到达地享受的服务、在到达地所花费的时间、edge(刻画了一种语义关系,比如
E
u
l
E_{ul}
Eul描述的是一个出行者到了一个location,当然这个语义关系是可以自己定义的,并不是固定的,看的研究目标而决定了),权重(权重就是edge的定量化体现了,比如
W
l
s
W_{ls}
Wls代表所在地提供的服务的种类数量,当然这个权重的数值是可以自己调整的,比如我也可以规定
W
l
s
W_{ls}
Wls代表出行者在所在地花费的时间之类的,看自己需求定义。)文章中给了更详细的解释和例子,若要进一步理解可以看下文章。
2.2 SIMILARITY MEASUREMENT BASED ON A META-PATH
meta-path就是研究者自己规定的一种path,比如在这个研究中作者规定了下面3种meta-path,meta-path顾名思义其实就是一种mobility pattern。而符合这种meta-path的实际的出行轨迹信息就是一个instance,这个是很好理解的。
有了meta-path之后就可以针对一个具体的meta-path来定义两个user相对于这个meta-path的similarity,公式如下:
除了上述计算方式还存在下面一个迭代计算方法:
2.3 MUTI-PATH SIMTRAVEL (MPST) ALGORITHM
上述提到的是一种针对某一个meta-path的相似性度量,而很有可能不止一种meta-path,比如本研究中,作者就指定了3种mata-path,作者是如何基于3种mata-path来做两个user的相似性度量的呢?很简单就是做个加权和就完事了。
作者使用上述那个公式,
α
\alpha
α是一个3维向量,每一个元素代表的意思是基于一个特定meta-path得到的相似性度量,其文章中的叫法是eigenvalue,3个eigenvalue组成了eigenvector。然后使用训练集,input就是eigenvector,以及两个user是否相似,相似就是1,否则为0,及Y,训练得到
θ
\theta
θ。于是便得到一个系统,这个系统可以基于HIN判断任意两个user是否相似。
参考文献
Tang, L. , Zhao, Y. , Duan, Z. , & Chen, J. . (2018). Efficient similarity search for travel behavior. IEEE Access, PP, 1-1.
https://blog.csdn.net/asd136912/article/details/78434061
https://www.cnblogs.com/kexinxin/p/11692428.html