原文出处:
chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2206.02921.pdf
一、本文核心问题
事件图补全
二、现有方法的局限性:
1)现有的链接预测或图补全方法通常侧重于单个大型图,但事件图数据集通常由多个小型实例事件图组成;
2)现有方法无法判断图中是否缺少一个新节点。
三、事件图背景知识
事件图是现实世界复杂事件的结构化表示。事件图由事件节点和实体节点以及它们之间的关系组成,其中包括事件与事件之间的时间联系、事件与实体之间的参数联系以及实体与实体之间的关系。事件图可以作为一种有用的工具,帮助读者快速理解和理清复杂事件的发展脉络。
四、Methods
4.1 方法总览
方法目标:补全事件图
通过 模式图匹配 将目标转换为 预测实例图是否缺少模式图中的候选事件节点
通过 子图匹配算法 再转换为 推断模式图的匹配子图是否缺少候选节点
于是,需要探索子图-节点对的两种本地拓扑结构,零节点和路径。通过预测两者的相关性,来预测子图中缺少候选节点的概率。
4.2 问题定义
实例图,包含有事件节点集合和实体节点集合,并且使用来表示从一个节点到其类型的映射函数。因此,在实例图中存在三种类型的链接:
(1)事件-事件时间链接,表示事件 在事件 之后按时间顺序发生,我们用“TEMP”表示时间链接的类型;
(2)事件-实体链接,表示事件 具有论元角色a,其值为实体 ;
(3)实体-实体链接,表示实体 和 之间存在r的关系。
具体来说,,,和。
4.3 Subgraph Matching
两阶段启发式子图
对于,先找出 中类型与 相同的事件节点,。
对于,无匹配;对于,有唯一匹配;对于,需要增加一个额外的匹配阶段,对每个 ,识别它的前一跳事件(one-hop previous events),后一跳事件,以及论元角色,于是在模式图 中:
然后在实例图 中识别 的上述三组, 。求Jaccard索引数,取最高返回唯一解(如果出现多组值相同则随机返回)。
4.4 Neighbors
在实例图 和模式图 之间进行子图匹配后, 被映射到 ,后者是 中事件节点的子集。因此,我们的目标是学习一个预测函数 ,它将输出新事件 是否是 的缺失节点的概率。在本小节中,我们用它们的邻居来测量 和 之间的相关性。
本文选择了GNN作为基本模型,利用图的结构和节点特征来学习每个节点的表示向量。典型的GNN遵循邻域聚合策略,该策略通过聚合相邻节点的表示来迭代更新节点的表示。实现部分采用GCN。
假设GNN层数为K。因此,事件 的最终层和子图 中的事件分别是 和 。然后,使用读出函数汇总 中的事件嵌入,并输出 的嵌入:
READOUT 函数可以是求和、平均或更复杂的基于注意力的聚合,因为子图中事件的重要性可能不同。最后,将 和 的嵌入式连接起来,然后使用多层感知器(MLP)预测 丢失 的概率:
4.5 Paths
在使用GNN处理映射子图 和候选事件节点 的节点邻接时,使用节点类型作为初始节点特征,这可能导致模型无法识别 和 之间的距离。为了使模型捕获距离信息,对子图和节点之间的连接模式进行建模,其特征是在模式图中连接它们的路径。具体来说,连接两个节点 和 的路径是一个节点和边的序列:
是连接节点 和 的边,路径中的每个节点都是唯一的。在这项工作中,使用路径中的边的类型来表示路径,即,
我们使用 表示连接 和 的长度不超过L的所有路径的集合。
对于模式图中的一个给定的事件 和一个子图 ,我们收集连接 和 中的每个事件节点的所有路径,作为(, )的路径集:
然后转换为multi-hot bag-of-paths向量 ,其中每个条目表示如果存在特定路径 。我们使用另外一个MLP去将 视为输入,并且输出 是 缺失的事件的概率:
最后,我们的预测函数 通过结合邻域模块的输出和路径模块的出书来实现:
4.6 Training
训练所提模型的一个潜在问题是,缺乏用于预测给定实例图中缺失事件的基本事实。因此,本文提出以自监督损失作为训练目标。具体来说,首先将训练数据中的每个实例图 映射到模式图 ,得到匹配的子图 。然后,对于每个事件节点 , 将 从 中屏蔽掉,并尝试用 的其余部分来预测 。也就是将 视为每个 的正向训练样本。同时可以随机抽样 以外的事件节点,即,并将 视为负样本。因此,总损失函数如下
公式所构建的训练数据可能是不平衡的。在这种情况下,我们可以使用下采样来重新平衡数据集。
五、实验
5.1 数据集
5.2 实验结果
效果有挺大提升的。