Semantic Proximity Search on Heterogeneous Graph by Proximity Embedding

最新推荐文章于 2022-11-29 17:57:44 发布

Wangchinlung

最新推荐文章于 2022-11-29 17:57:44 发布

阅读量520

点赞数

分类专栏： ML&DL AINotes 文章标签： embedding meta-path

本文链接：https://blog.csdn.net/wangchinlung/article/details/89341203

版权

ML&DL 同时被 2 个专栏收录

8 篇文章 2 订阅

订阅专栏

AINotes

4 篇文章 0 订阅

订阅专栏

我的知乎：JoeWang

这篇论文发表在AAAI2017会议上，主要讲的是异构信息网络的语义路径的嵌入。相较于其他的嵌入方法，这篇论文着眼于一种直接的异构网络结构中两节点的路径嵌入方法ProxEmbed，且这种方法支持对称和非对称的结构。基于这种嵌入方法，可以轻松计算出两节点的路径评分。

Introduction

作者通过使用随机游走来确定节点q与节点v之间的网络结构。所以呢，对于非对称的元路径，同一个网络中，节点q到节点v与节点v到节点q的网络结构是不一样的。有了网络结构，接下来就是通过神经网络做embedding，论文作者使用LSTM（Long Short-Term Memory），节点q和节点v之间的路径被视为一个sequence。经过LSTM网络，会产生多个对path的embedding，之后通过discounted path pooling生成一个向量即使节点q到节点v的语义路径的embedding了。

Problem Formulation

论文中定义一个图 G = （V，E，C，τ），V是节点集合，E是边集合，C可能出现的节点类型的集合，τ则是图 G 中V-->C的一个类型映射函数。架构的输入是一个定义好的图G和一个训练元组D=｛（qi，vi，ui）：i = 1,...,m｝,其中q是查询节点，v，u则是目标节点，节点v到q的距离比节点u到q的距离更近。最后的输出是一个向量，表示q到v、q到u的语义路径的embedding，需要说明的是，对于对称的路径，f(q,v)=f(v,q)；对于非对称路径，f(q,v)!=f(v,q)。

Proximity Embedding

Path modeling with LSTM

LSTM常被用来应对梯度爆炸问题，将一条路径视作一个sequence，即以节点q到节点v的路径最为一个sequence。LSTM为每个timestep生成一个向量，通过pooling操作最后生成这个sequence的embedding。LSTM可以看作一个记忆单元（memory cell），它包含一个输入门（input gate）、一个自我连接的神经元（neuro）、一个遗忘门（forget gate）和一个输出门（output gate）。

Input gate

Forget gate

Cell state

Output gate

最后，输出的向量yt为：

再通过pooling操作，h即为一条路径下节点q到节点v的embedding：

Discounted path pooling

因为会有很多条路径，经过上面的LSTM后，会产生多个向量描述同一个节点q到节点v的embedding，所以最后要合并这些路径，最终生成节点q到节点v的embedding。

完成pooling之后，就可以使用得到的embedding来做一个ranking对于节点q到节点v和节点q到节点u。论文定义了如下的逻辑回归：

这样，加上正则项，就可以进一步给出loss function：

Experiments

在实验部分，论文使用了三个数据集LinkedIn、Facebook和DBLP。

对比了如下的方法：

MGP：Meta-Graph Proximity uses meta-graphs as features to measure proximity；
MPP：Meta-Path Proximity uses meta-paths as features to measure proximity；
SRW：Supervised Random Walk learns the edge weights, so as to make the random walk results consistent with the ground truth ranking；
DWR：Deep Walk Ranking first learns the node embedding by Deep Walk；

通过对比，论文的方法都有很好的表现。