图计算论文笔记--Heterogeneous Information Network Embedding for Meta Path based Proximity

abstract

  • 在异构信息网络上做嵌入
  • 使用meta-path
  • proximity measures
  • objective function 最小化两个距离:
    meta path based proximities
    proximities in the embedded vector space
  • 使用副样本加速优化过程
  • 本文的方法为HINE

keywords

异构信息网络,meta-path,网络嵌入

introduction

  • 使用HIN上的meta-path嵌入
  • 建立的function来最小化两个相似度距离
  • 使用副样本加速优化过程
  • 对四组异构网络做实验

文章的方法使用了网络上的结构信息,顶点和边的类型信息

related work

  • 异构信息网络
  • meta-path
  • embedding

problem definition

  • HIN 异构信息网络G = (V,E)
  • HIN schema TG =(L,R)
    L是V的类型,R是E的类型
  • meta-path based proximity 两个点在meta-path模式P下的proximity
    有两种计算方法:在这里插入图片描述
  • Proximity in HIN 两个点在整个图上的Proximity
    也就是所有的P模式下的两个点的meta-path based proximity之和
    在这里插入图片描述
  • HIN Embedding for Meta Path based Proximity
    将图上的点embedding后能够保护上述的meta-path based proximity和Proximity in HIN

HINE

HINE是本文对HIN进行embedding的方法

  1. 介绍meta-path的Truncated Proximity Calculation
  2. 介绍model和定义目标函数
  3. 使用副样本

Truncated Proximity Calculation

Truncated Proximity Calculation的意思就是在计算proximity的时候,只采用长度小于threshold L的meta-path。因此Proximity in HIN 定义为:
在这里插入图片描述
性质:在这里插入图片描述
其实很好理解,也就是这个路径的proximity就是路径上每一个边的proximity的成积。
使用算法来计算一个proximity矩阵,记录每两个点之间的proximity:
在这里插入图片描述

model

两个点之间的joint probability:
使用sigmoid,其中vi和vj是点i和点j已经embedding到低维空间的向量
在这里插入图片描述
按照之前我们定义的proximity,两个点之间的相似度应该是:
在这里插入图片描述
因此,我们可以得到一个目标函数,这个目标函数通过最小化上面的两个p的距离,来保持embedding后网络的proximity,最小化距离,可以使用KL散度:在这里插入图片描述
使用KL散度得到此目标函数的过程:
在这里插入图片描述

negative sampling

直接优化上面的KL散度目标函数太复杂,因此采用副样本。
使用副样本来加强正样本的影响。
这是对每对点
在这里插入图片描述
(10)是关于(8)的梯度
对每一对的点进行学习的时候使用(9),整体的是(8)

experiment

总结

没有介绍如何进行训练的,我感觉因该是使用的网络,输入是节点的编码,通过一个网络后的到此节点的低维空间的表达,然后带入目标函数,训练网络的节点,的到权值。
所以最后的需要的向量是网络最后的低维空间的表达。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值