论文《Higher-order memory guided temporal random walk for dynamic heterogeneous network embedding》阅读-CSDN博客

本文链接：https://blog.csdn.net/qq_43312665/article/details/134362007

论文《Higher-order memory guided temporal random walk for dynamic heterogeneous network embedding》阅读

论文概况
Introduction
Method
总结

论文概况

本文是2023年Pattern Recognit上的一篇论文，该篇文章发现现有方法对手动设计的高阶结构具有高度依赖性和约束，并且会丢失细粒度的时间信息，提出了HoMo-DyHNE模型。所提出的模型是一个两阶段架构，由独立于元结构的随机游走算法（具有转移向量和高阶内存的 HoMo-TRW）和基于霍克斯的特征 Skip-gram (HFSG) 组成，该算法结合了多元霍克斯点过程来测量历史-当前关联强度。大量的实验证明了论文提出的方法的卓越有效性。

Introduction

作者提出了几个问题
如何捕获 DyHIN 中的异质性、高阶依赖性和动态模式？
现有的方法通常通过使用手动设计的元结构对高阶邻居进行采样的异构网络或使用基于快照的时间建模的动态网络。然而，他们仍然面临以下问题

对人工设计的高阶结构依赖性强、约束强。
细粒度时间信息的丢失和弱约束。
现有的动态网络嵌入方法大致可以分为两类。 (i)第一个将网络分成几个快照，每个快照都作为静态图进行处理。快照中的细粒度动态信息（一个快照中每个边的时间戳中的信息）丢失了。 (ii) 第二个执行具有时间约束的时间随机游走，以捕获动态网络中的因果关系。虽然这种方法捕获了动态语义并且可以维护细粒度的动态信息，但它没有考虑时间粒度对时序约束强度的影响。

对于上述问题，作者提出了HoMo-DyHNE模型：
模型由两个关键组件组成，即高阶内存引导时间随机游走算法和基于 Hawkes 的 Skip-gram 表示学习模型。
(i)第一组件利用访问的类型分布来指导下一个类型的选择，并使用粒度相关的时间衰减约束来限制从具有所选类型的邻居中选择下一个节点。
(ii)第二部分综合利用节点属性特征，使Skipgram模型对节点属性敏感，并利用Hawkes过程建模前一时间戳对当前时间戳的激励强度。
三个 DyHIN 数据集上的实验结果表明，所提出的方法在多个下游任务（即多标签分类、节点聚类和时间链接预测）中是有效的。所提出的高阶记忆引导随机游走具有更好的便利性和有效性。

（霍克斯过程）。霍克斯过程是一个时间点过程，它模拟历史状态对当前状态的自发影响，它假设当前时间 t 之前发生的状态对当前事件具有非负的、加性的和时间衰减的影响。形式上，它可以定义为时间依赖的条件概率函数：
在这里插入图片描述
其中 μu定义当前状态 u 的基本到达可能性，δi,u 表示特定历史状态 i 对 u 的影响强度，κ(t − ti) 是用于对随时间衰减的影响进行建模的核函数，通常呈指数衰减。

Method

考虑到其强大的并行性和可扩展性，使用基于随机游走的方法的两阶段架构。首先，HoMo-TRW 算法以给定的DyHIN为输入，在历史记忆引导和增量时间约束下对其进行随机游走，然后生成三部分输出：含有丰富的局部语义信息的游走实例语料库L、DyHIN每个节点的转移向量矩阵 p 和记录过去行走步骤以指导当前步骤的高阶存储器。之后，所有 HoMo-TRW 输出都与原始节点特征矩阵融合，并输入到所提出的 HFSG 嵌入模型中。通过联合利用 DyHIN 的节点特征和时间信息，HFSG 可以将每个节点投影到一个 d 维势向量中，该向量能够保留节点的足够属性和局部动态结构信息。

A.高阶记忆引导时间随机游走

在这里插入图片描述
在 DyHIN 上执行随机游走的主要挑战是如何在没有预先设计的元结构的情况下捕获多种类型的节点和边的异构动态信息。尽管正常的随机游走策略简单有效，但由于忽略网络的异质性和动态性，它们通常会丢失大量有效信息。
大量相关研究表明，使用一定限制或指导的随机游走算法生成的游走实例将包含更全面的结构语义信息。例如，元结构引导的随机游走策略能够有效捕获异构网络的异构特征；然而，这些方法依赖于先验知识，并且没有考虑网络随时间演变的动态特性。
为了解决在 DyHIN 上执行随机游走时遇到的上述挑战，我们设计了一种新颖的随机游走算法，该算法具有两个关键策略：用高阶内存引导当前的游走步骤，并用非递减时间约束限制下一跳邻居的选择。

a 高阶记忆指导

记忆引导随机游走算法的核心是记忆先前访问的信息（例如，特定边的访问次数、访问的节点域）以指导下一个邻居节点的选择。在本文中，为了克服基于元结构的异构随机游走算法依赖先验知识的缺点，一个自然的想法是充分利用先前游走步骤自发捕获的局部异构语义进行进一步探索。
在HoMo-TRW 中，引入了两个向量：类型转换向量和随机游走器的高阶记忆。

类型转换向量。给定一个动态异构网络G=(V,E,X,T;H,R)，节点u的类型转换向量定义为pu。向量中的每个条目表示在给定高阶先前类型的情况下当前节点移动到下一个类型的转移概率

高阶内存。给定动态异构网络 G = (V, E, X , T ; H, R)，随机游走器的高阶存储器是每种类型 h ∈ H 的先进先出 (FIFO) 队列 Qh长度为K。内存记录了h类型的随机游走器访问过的前K个节点的转移向量

给定上述两个向量，所提出的高阶记忆指导通过以下三个步骤中决定下一个节点的类型。
步骤1：转移向量。 update 最初，将每个节点的转移向量 p0 均等地转移到相邻类型，并且高阶内存的队列为空。在随机游走的时间步n，当随机游走访问节点u时，转移向量按照以下规律更新：
在这里插入图片描述
第 2 步：类型转换。给定转移向量，可以根据 pu 中的概率分布决定下一个类型。为了缓解类型陷阱问题，我们建议使用具有探索因子 α ∈ [0, 1] 的探索机制：

步骤3：高阶内存记录。访问完当前节点u后，将转移向量pu放入队列中。
在这里插入图片描述
其中 Put 是 FIFO 队列的 put 运算符，如果队列已满，则弹出第一个向量并将向量放在队列末尾。

通过这种方式，所提出的方法可以在没有预定义元路径/图的情况下探索高阶近似值。最近，一些基于 GNN 的方法试图通过堆叠多个层来实现类似的目标。为了捕捉高阶关系，他们必须加深 GNN 的层数。尽管 GNN 具有良好的层数表示能力，但其必须面临更深层次架构的过度平滑问题，并且由于其隐式聚合方法，很难解释使用什么样的高阶信息以及如何使用它。
GNN 和基于随机游走的方法之间的主要区别在于，后者通过采样捕获高阶关系，不存在过度平滑的问题。他们使用高阶邻近度作为自我监督信号而不是标签信息。基于随机游走的方法具有良好的数学理论基础，对于更大的网络具有更强的扩展性

b时间限制

动态网络的时间特征反映在其随时间演变的结构中。为了捕捉这种动态演化规律，我们进一步提出使用时间约束来执行时间随机游走。在为当前节点vi选择下一跳邻居类型hn+1后，可以在非递减时间约束下生成下一跳邻居候选集Vn+1：
在这里插入图片描述
其中 tn 表示前一个随机游走步骤选择的边的时间戳，特别是，tn 将被初始化为原始 DyHIN 的最小时间戳。然后我们使用指数衰减分布从集合 Vn+1 中选择一个节点作为下一跳邻居.

其中霍克斯过程的时间衰减核函数中使用的衰减率 δ ε (0, 1]。
使用采样策略可能会丢失网络中的细粒度时间信息，因为它假设时间偏差概率不同时间粒度的网络分布是一致的，忽略DyHINs中时间粒度的影响，一种可能的解决方案是对时间戳进行归一化，以便将不同量级的时间戳映射到同一区间(0, 1]，但这会带来当网络时间粒度较小时，精度会出现偏差。为了应对这一挑战，引入衰减率δ来校正时间概率分布。δ值越小，表明时间概率分布变化相对缓慢，因此， δ更适合粒度小、变化频繁的网络，例如社交网络，而对于时间粒度较大的网络，例如学术关系网络，δ可能更大一些更合适。

利用指数衰减分布，随机游走算法倾向于选择时间间隔较小的边。这意味着在时间上，历史事件与当前事件越接近，它对当前事件的影响就越大。

将高阶记忆引导与时间约束相结合，提出了高阶记忆引导时间随机游走（HoMo-TRW）。
给定 DyHING，HoMo-TRW 的输出将被送到学习 G 中节点嵌入的方法的第二个组成部分。提出的 HoMo-TRW 在以下三点改进了 DeepWalk和 Methpath2vec中使用的随机游走。
(i) 无需专业知识。高阶存储器可以自适应地吸收来自 DyHIN 的知识（具有时间限制的异构类型分布）。
(ii)即使属于同一类型，每个节点的异构转移概率也是不同的，同一类型的节点可能包含不同类型邻居的爱好。
(iii) 时间约束对于动态图至关重要，在随机游走采样过程中也考虑了时间约束。

复杂性分析

给定 DyHIN G、游走长度 wl 和每个节点的游走时间 wt，算法将对给定 DyHIN 中的每个节点执行 wt 次随机游走过程，并输出 wl 长度的游走实例。所以随机游走的步数为N·wt·wl，一般为wt<<N，wl << N。另外，算法中第n步的理论时间成本为O(|H| + |Vn+1|) 。考虑到最坏情况，|Vn+1|将等于节点 vn 的度（即 dn），因此算法的总时间复杂度为 O((N · |H| + Σdi) · wl · wt)。无向图中，所有节点度数之和为边数的两倍，因此时间复杂度可以修改为 O((N·|H| + 2|E|)·wl·wt)，即线性复杂。

B.基于霍克斯的特色skip-gram

众所周知，Skip-gram关注上下文消息，但忽略了网络中节点和边的属性，丢失了很多有意义的信息。然而，广泛的研究表明节点特征保留了丰富的结构语义。因此，正确利用节点特征是提高节点表示在各种下游任务上的性能的关键因素。

另一方面，动态图表示学习中的时间信息是不可忽略的，否则嵌入模型很难提取网络中的动态演化规律。
由于所提出的 HoMo-TRW 算法可以获得通过时间限制在 DyHIN 中保留局部动态语义的行走实例，Skip-gram 模型具有学习时间保留节点嵌入的能力。
然而，Skip-gram 模型没有明确应用时间信息。此外，它仅基于滑动窗口中节点对隐藏表示的相似性来定义当前连接的出现概率。
为了解决这个问题，我们进一步提出使用霍克斯过程对历史状态对当前状态的影响强度进行时间建模，从而明确地利用 DyHIN 的动态特征。

在我们提出的基于 Hawkes 的特征 Skip-Gram (HFSG) 中，为了利用节点本身的属性特征，我们将 DyHIN 中每个节点 u 的潜在表示扩展为原始特征、识别嵌入和最终转换向量的组合：
在这里插入图片描述
其中 pu 是节点 u 的转移向量，xu ∈ X 是原始节点特征，ou 是标识节点 u 的one-hot向量，E ∈ RN×d 是所有节点的初始化潜在嵌入，Wf 和 W 是源节点 u 和上下文节点 v 之间不共享的可学习参数。
然后，使用霍克斯过程对历史状态的影响强度进行建模，条件强度如下：
在这里插入图片描述
其中 μuv = zu · zv 表示当前节点对 (u, v) 共现的基概率，αhv 表示历史激励强度，
His(v)是历史节点的序列：直接从同一个walk实例中v之前的历史节点生成。
除了当前节点（即目标节点）和历史节点之外，当前状态的历史兴奋强度还应该与源节点相关。因此，我们使用softmax函数来定义源节点和历史节点之间的权重系数。
在这里插入图片描述
与Skip-gram模型相比，所提出的HSFG
（i）从原始特征、识别信息和转移概率三个角度学习节点的嵌入
（ii）结合Hawkes过程来探索建模时的时间约束。目标节点与历史节点之间的影响
最后，使用负采样技术进行优化：
在这里插入图片描述
其中C(u)是滑动窗口中除u之外的节点集合。
所提出的 HSFG 遵循传统网络嵌入的优化方式。 HoMo-TRW 和基于 Hawkes 的特征节点对影响力建模的方法可以通过其他（无监督/自监督）优化策略轻松改进，例如对比学习和屏蔽自动编码器。例如，学习到的条件强度 λv|u 可以被视为节点对 (u, v) 之间的影响/相关性。因此它适合替换InfoNCE损失中的相似函数或对比学习的InfoMax损失中的判别器。另一种方式，它可以用MAE解码器的图重建。

C.与相关方法的比较

在本节中，我们分析了我们提出的 HoMo-DyHNE 与三个相对相关的工作 DeepWalk [4]、Metapath2vec/Metagragh2vec [8,9]、JUST [29]、CTDNE [14] 和 THINE [ 22]。这些方法都使用两阶段架构。
在这里插入图片描述

HoMo-DyHNE 与 DeepWalk DeepWalk 使用随机游走将网络拓扑转换为包含局部结构消息的序列数据，并类比 Skip-gram 模型的使用，这是一项开创性的工作。我们的方法的不同之处在于，我们利用历史经验指导和时间约束来捕获 DyHIN 中的局部动态异构语义。此外，我们利用节点特征和霍克斯过程使Skipgram模型不仅关注上下文语义，而且考虑到足够的节点属性和动态特征。

HoMo-DyHNE 与 Metapath2vec/Metagragh2vec。与 DeepWalk 不同，metapath2vec/metagragh2vec 通过元路径/图探索异构语义。然而，它们通常需要通过领域知识来预定义，这对于更复杂的系统来说很难。我们设法找到一种高阶内存，可以在没有元结构的情况下指导 DyHIN 上的随机游走采样。使用的 Skip-gram 与 DeepWalk 类似，因此我们的优势仍然存在。

HoMo-DyHNE 与 JUST。 JUST在具有历史行走记忆的异构信息网络上执行随机行走，解决元结构依赖问题，这与我们提出的随机行走算法是相同的起点。尽管如此，只是倾向于从来自历史上未访问过的类型集对下一个邻居的类型进行统一采样，强调缺失的语义信息。然而，我们的随机游走算法并没有严格限制局部异构语义信息，而是考虑了访问类型的分布差异，并为每个节点分配一个转移向量，这更具可解释性和个性化。

HoMo-DyHNE 与 CTDNE。与我们的随机游走算法类似，CTDNE 执行具有非递减时序约束的随机游走，并采用时间指数衰减分布来采样下一个邻居。不同的是，我们考虑了不同时间粒度下的时间衰减速度，然后对时间分布进行微调，从而使我们的模型在模拟历史事件引发的兴奋方面更加准确。

HoMo-DyHNE 与 THINE。 THINE 使用由基于元路径的随机游走采样和基于注意力的优化组成的两阶段过程。与metapath2vec一样，THINE也使用预定义的元路径，这对我们来说不是必需的，并且放弃了行走过程中的时间限制。基于注意力的优化与我们提出的 HFSG 类似，但它没有利用节点属性来影响节点。此外，我们结合了细粒度的时间信息，而不仅仅是目标节点和历史节点之间的时间信息。

此外，JUST、CTDNE 和我们提出的模型之间的区别类似于 DeepWalk，既不使用节点属性，也不对历史事件对当前事件的影响强度进行时间建模。更多相关工作的总结见表 1。基于随机游走的方法可以捕获高阶信息，但有时无法处理手动设计的异质性和独立性。基于霍克斯的方法可以很好地学习时间信息，但忽略了异构动态。

D.实验

在这里插入图片描述

参数分析

在本节中，我们分别讨论行走长度 wl、行走时间 wt 和衰减率 δ 如何影响模型的分类性能，并记录多标签分类任务的准确性。
步行长度 wl。我们将参数 wl 从 2 更改为 80。从图 3（a）中，我们可以发现游走长度 wl 对于所提出模型的性能并不是严格正向的，相反，准确度得分在一个小区间内明显增加（大约 2-10)，但当 wl 继续增长时会发生碰撞。
步行时间重量图3(b)中参数wt从1变为80。与行走长度的敏感性类似，行走时间 wt 对性能也并不完全呈正向，而是在相对较小的区间（大约 2-20）内取得最大值。
衰减率δ。如图4（a）所示，衰减率δ与Aminer和DBLP数据集的性能呈正相关，但与性能没有明显的相关性
在这里插入图片描述

消融实验

在淘宝数据集上进行了额外的消融实验，以研究提出的方法的两个关键组成部分（随机游走策略和改进的 Skip-gram）的效果。除了所提出的方法HoMo-DyHNE（Ab.0）之外，消融实验还包括三个部分：
用时间正态随机游走替换HoMo-TRW策略（Ab.1），用Skip-gram模型替换HFSG（ Ab.2)，并替换两者 (Ab.3)（降级DeepWalk）。结果如表6所示
在这里插入图片描述

###案例研究：类型探索
验证HoMo-TRW 中的探索机制对于缓解图 5 中的类型陷阱问题的有效性。在 Aminer 数据集上进行了此实验，并记录了三个的数量{10^2, 10^3, 10^4} 随机游走步骤的最后 100 步中单独的节点类型（作者、论文、会议）。
首先发现论文节点始终占50%。

原因是Aminer数据集由两种类型的边组成：A-P和C-P，因此每两个步骤必须从一个论文节点开始。无论论文类型的节点如何，我们可以从图5（a）中观察到算法倾向于选择会议节点作为下一跳邻居，而无需探索，并且随着步数的增加，这种趋势更加明显。另外，最后只对会议类型进行采样。在图5（b）中，随着步行步数的增加，选择会议节点的趋势显着减弱，这意味着类型探索可以有效解决类型陷阱问题。

可扩展性分析

为了证明所提出的随机游走算法的可扩展性，用不同的方法测量游走时间的变化，不同数量的边或节点。在本实验中，我们按照淘宝数据集的边组成和不同节点类型的数量分布，随机生成两组图数据集。其中一个有 10,000 个边，节点的平均度为 {2, 4, 8, 20, 40}，另一个有 1000 个节点，节点的平均度为 {2, 10, 20, 50, 100, 200} 。我们对每个生成的图执行 wl = 10 和 wt = 40 的随机游走，并在图 6 中记录时间消耗。
在这里插入图片描述
在图6（a）中，时间成本随着节点数量线性增长，在图6（b）中，行走时间也随着边数量线性增长。结果与我们的复杂性分析一致，表明所提出的算法是可扩展的，并且可以轻松应用于超大规模的时间异构网络。

总结

文章提出了一种用于动态异构网络嵌入的新型高阶记忆引导时间随机游走（HoMo-DyHNE）。所提出的模型由 HoMoTRW 和 HFSG 组成。在HoMo-TRW算法中，行走步骤由访问节点生成的高阶记忆和非递减时间约束引导，有助于在DyHIN中保留足够的动态语义。接下来，我们将节点属性特征与 HoMo-TRW 的输出结合起来，并将其输入 Skip-gram 模型，然后使用多元霍克斯点过程来测量历史-当前关联强度。大量实验结果验证了 HoMo-DyHNE 的卓越有效性。