Schema-Guided Event Graph Completion 阅读

原文出处:

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2206.02921.pdf

一、本文核心问题

事件图补全

二、现有方法的局限性

1)现有的链接预测或图补全方法通常侧重于单个大型图,但事件图数据集通常由多个小型实例事件图组成;

2)现有方法无法判断图中是否缺少一个新节点。

三、事件图背景知识

事件图是现实世界复杂事件的结构化表示。事件图事件节点实体节点以及它们之间的关系组成,其中包括事件与事件之间的时间联系事件与实体之间的参数联系以及实体与实体之间的关系。事件图可以作为一种有用的工具,帮助读者快速理解和理清复杂事件的发展脉络。

四、Methods

4.1 方法总览

方法目标:补全事件图

通过 模式图匹配 将目标转换为 预测实例图是否缺少模式图中的候选事件节点

通过 子图匹配算法 再转换为 推断模式图的匹配子图是否缺少候选节点

于是,需要探索子图-节点对的两种本地拓扑结构,零节点路径。通过预测两者的相关性,来预测子图中缺少候选节点的概率。

4.2 问题定义

实例图I=\{I_1, I_2, ...\},包含有事件节点集合\{e_i\}和实体节点集合\{v_i\},并且使用\tau (\cdot )来表示从一个节点到其类型的映射函数。因此,在实例图中存在三种类型的链接

(1)事件-事件时间链接<e_i, e_j>,表示事件 e_j 在事件 e_i 之后按时间顺序发生,我们用“TEMP”表示时间链接的类型;

(2)事件-实体链接<e_i, a, v_j>,表示事件 e_i 具有论元角色a,其值为实体 v_j

(3)实体-实体链接<v_i, r, v_j>,表示实体 v_i 和 v_j 之间存在r的关系。

具体来说,\tau (<e_i, e_j>)=TEMP\tau (<e_i, a, v_j>)=a,和\tau (<v_i, r, v_j>)=r

4.3 Subgraph Matching

两阶段启发式子图

对于e_i \in I,先找出 S 中类型与 e_i 相同的事件节点,E_i = \{e_j \in S | \tau(e_j) = \tau(e_i) \}

对于|E_i|=0,无匹配;对于|E_i|=1,有唯一匹配;对于|E_i|>1,需要增加一个额外的匹配阶段,对每个 e_j ,识别它的前一跳事件P(one-hop previous events),后一跳事件F,以及论元角色A,于是在模式图 S 中:

 然后在实例图 I 中识别 e_i 的上述三组,P_I(e_i), F_I(e_i), A_I(e_i) 。求Jaccard索引数,取最高返回唯一解(如果出现多组值相同则随机返回)。

 4.4 Neighbors

在实例图 I 和模式图 S 之间进行子图匹配后,I 被映射到 I',后者是 S 中事件节点的子集。因此,我们的目标是学习一个预测函数 f(e, I'),它将输出新事件e \in S \setminus I' 是否是 I' \subseteq S 的缺失节点的概率。在本小节中,我们用它们的邻居来测量 I'e 之间的相关性。

本文选择了GNN作为基本模型,利用图的结构和节点特征来学习每个节点的表示向量。典型的GNN遵循邻域聚合策略,该策略通过聚合相邻节点的表示来迭代更新节点的表示。实现部分采用GCN。

假设GNN层数为K。因此,事件 e 的最终层和子图 I' 中的事件分别是 h^K_e\{h^K_{e_i}\}_{e_i \in I'}。然后,使用读出函数汇总 I' 中的事件嵌入,并输出 I' 的嵌入:

READOUT 函数可以是求和、平均或更复杂的基于注意力的聚合,因为子图中事件的重要性可能不同。最后,将 e 和 I' 的嵌入式连接起来,然后使用多层感知器(MLP)预测 I' 丢失 e 的概率:

 4.5 Paths

在使用GNN处理映射子图 I' 和候选事件节点 e 的节点邻接时,使用节点类型作为初始节点特征,这可能导致模型无法识别 I' 和 e 之间的距离。为了使模型捕获距离信息,对子图和节点之间的连接模式进行建模,其特征是在模式图中连接它们的路径。具体来说,连接两个节点 s 和 t 的路径是一个节点和边的序列:

<i, j>是连接节点 i 和 j 的边,路径中的每个节点都是唯一的。在这项工作中,使用路径中的边的类型来表示路径,即,

我们使用 P^{ \leq L}_{s \rightarrow t}  表示连接 s 和 t 的长度不超过L的所有路径的集合。

对于模式图中的一个给定的事件 e 和一个子图 I' ,我们收集连接 e 和 I' 中的每个事件节点的所有路径,作为(eI')的路径集:

然后转换为multi-hot bag-of-paths向量 P^{ \leq L}_{e \rightarrow I'},其中每个条目表示如果存在特定路径 P^{ \leq L}_{e \rightarrow I'}。我们使用另外一个MLP去将 P^{ \leq L}_{e \rightarrow I'} 视为输入,并且输出 e 是 I' 缺失的事件的概率:

 最后,我们的预测函数 f(e, I') 通过结合邻域模块的输出和路径模块的出书来实现:

 4.6 Training

训练所提模型的一个潜在问题是,缺乏用于预测给定实例图中缺失事件的基本事实。因此,本文提出以自监督损失作为训练目标。具体来说,首先将训练数据中的每个实例图 I 映射到模式图 S,得到匹配的子图 I'。然后,对于每个事件节点 e \in I', 将 e 从 I' 中屏蔽掉,并尝试用 I' 的其余部分来预测 e。也就是将 (e, I'/e) 视为每个 e \in I' 的正向训练样本。同时可以随机抽样 I' 以外的事件节点,即e \in S \setminus I',并将 (e, I') 视为负样本。因此,总损失函数如下

公式所构建的训练数据可能是不平衡的。在这种情况下,我们可以使用下采样来重新平衡数据集。

五、实验

5.1 数据集

 5.2 实验结果

效果有挺大提升的。

 5.3 Case Study

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值