HEBE(Large-Scale Embedding Learning in Heterogeneous Event Data)
对于只包含单种interaction的网络,一般都是在局部采集上下文(比如在文本中的,滑动窗口内的词视为上下文),然后通过预测上下文来构建目标函数。
对于一个包含多种节点和边类型的网络,现有的方法PTE等,将所有object之间同时存在的interaction分解为几个分散的pairwise的interaction(比如论文网络,分解为论文-作者,论文-期刊/会议等),然后用传统的single-typed网络embedding方法求解。这种分解会丢失很多重要的信息,举个例子: A在期刊V上发表了论文 P1 , B在期刊V上发表了论文 P2 ,但是A-B之间并没有合作关系( A−P1−V−P2−B )。
HEBE 主要做的就是把跟一个事件相关的节点都关联到一个hyper edge中,以此来保留网络更多的信息。
如下图所示:
例1 DBLP数据只有一种event :
例2 Yelp数据有两种event :
几个基本定义
1. Information Network: 给定一个有T类objects的集合 X={
Xt}Tt=1 ( 其中 Xt 是所有 tth 类的object的集合),信息网络就是 G=(X,E) , E 是连接两个object的边。如果 T≥2 , 那么是异质(heterogeneous)网络;如果T=1,那么是同质(homogeneous)网络。
2. 事件(event): Qi 可以表示为 <Vi,wi> <script type="math/tex" id="MathJax-Element-14"> </script>,其中 wi 是事件 Qi 的权重; Vi={
Vti}Tt=1 ,并且 Vti⊆Xt 表示的是属于t类型的object的集合。
3. 超边: Hi 刻画事件Q_i$,它把与事件的所有相关objects看作一个整体。
4. Subevent:子事件就是从每个object类型中均匀地采样出一个object组成地事件。现实的场景中,一个事件中的不同object类型对应的object数目 |Vti|≥1 (比如:一篇论文对应多个作者,多个term,却只对应一个venue)。对于一个事件 Qi={
Vi,wi},Vi={
a1,a2,a3}∪{