Heterogeneous Information Network Embedding for Meta Path based Proximity
abstract
- 在异构信息网络上做嵌入
- 使用meta-path
- proximity measures
- objective function 最小化两个距离:
meta path based proximities
proximities in the embedded vector space - 使用副样本加速优化过程
- 本文的方法为HINE
keywords
异构信息网络,meta-path,网络嵌入
introduction
- 使用HIN上的meta-path嵌入
- 建立的function来最小化两个相似度距离
- 使用副样本加速优化过程
- 对四组异构网络做实验
文章的方法使用了网络上的结构信息,顶点和边的类型信息
related work
- 异构信息网络
- meta-path
- embedding
problem definition
- HIN 异构信息网络G = (V,E)
- HIN schema TG =(L,R)
L是V的类型,R是E的类型 - meta-path based proximity 两个点在meta-path模式P下的proximity
有两种计算方法: - Proximity in HIN 两个点在整个图上的Proximity
也就是所有的P模式下的两个点的meta-path based proximity之和
- HIN Embedding for Meta Path based Proximity
将图上的点embedding后能够保护上述的meta-path based proximity和Proximity in HIN
HINE
HINE是本文对HIN进行embedding的方法
- 介绍meta-path的Truncated Proximity Calculation
- 介绍model和定义目标函数
- 使用副样本
Truncated Proximity Calculation
Truncated Proximity Calculation的意思就是在计算proximity的时候,只采用长度小于threshold L的meta-path。因此Proximity in HIN 定义为:
性质:
其实很好理解,也就是这个路径的proximity就是路径上每一个边的proximity的成积。
使用算法来计算一个proximity矩阵,记录每两个点之间的proximity:
model
两个点之间的joint probability:
使用sigmoid,其中vi和vj是点i和点j已经embedding到低维空间的向量
按照之前我们定义的proximity,两个点之间的相似度应该是:
因此,我们可以得到一个目标函数,这个目标函数通过最小化上面的两个p的距离,来保持embedding后网络的proximity,最小化距离,可以使用KL散度:
使用KL散度得到此目标函数的过程:
negative sampling
直接优化上面的KL散度目标函数太复杂,因此采用副样本。
使用副样本来加强正样本的影响。
这是对每对点
(10)是关于(8)的梯度
对每一对的点进行学习的时候使用(9),整体的是(8)
experiment
总结
没有介绍如何进行训练的,我感觉因该是使用的网络,输入是节点的编码,通过一个网络后的到此节点的低维空间的表达,然后带入目标函数,训练网络的节点,的到权值。
所以最后的需要的向量是网络最后的低维空间的表达。