Schema-Guided Event Graph Completion 阅读

游吟诗狂

已于 2023-11-14 10:45:19 修改

阅读量102

点赞数

分类专栏：自然语言处理文章标签：算法机器学习人工智能自然语言处理知识图谱

于 2023-08-10 11:08:47 首次发布

本文链接：https://blog.csdn.net/qq_37591524/article/details/132202687

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

原文出处：

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2206.02921.pdf

一、本文核心问题

事件图补全

二、现有方法的局限性：

1）现有的链接预测或图补全方法通常侧重于单个大型图，但事件图数据集通常由多个小型实例事件图组成；

2）现有方法无法判断图中是否缺少一个新节点。

三、事件图背景知识

事件图是现实世界复杂事件的结构化表示。事件图由事件节点和实体节点以及它们之间的关系组成，其中包括事件与事件之间的时间联系、事件与实体之间的参数联系以及实体与实体之间的关系。事件图可以作为一种有用的工具，帮助读者快速理解和理清复杂事件的发展脉络。

四、Methods

4.1 方法总览

方法目标：补全事件图

通过 模式图匹配 将目标转换为 预测实例图是否缺少模式图中的候选事件节点

通过 子图匹配算法 再转换为 推断模式图的匹配子图是否缺少候选节点

于是，需要探索子图-节点对的两种本地拓扑结构，零节点和路径。通过预测两者的相关性，来预测子图中缺少候选节点的概率。

4.2 问题定义

实例图 $I=\{I_1, I_2, ...\}$ ，包含有事件节点集合 $\{e_i\}$ 和实体节点集合 $\{v_i\}$ ，并且使用 $\tau (\cdot )$ 来表示从一个节点到其类型的映射函数。因此，在实例图中存在三种类型的链接：

(1)事件-事件时间链接 $<e_i, e_j>$ ，表示事件 $e_j$ 在事件 $e_i$ 之后按时间顺序发生，我们用“TEMP”表示时间链接的类型；

(2)事件-实体链接 $<e_i, a, v_j>$ ，表示事件 $e_i$ 具有论元角色a，其值为实体 $v_j$ ；

(3)实体-实体链接 $<v_i, r, v_j>$ ，表示实体 $v_i$ 和 $v_j$ 之间存在r的关系。

具体来说， $\tau (<e_i, e_j>)=TEMP$ ， $\tau (<e_i, a, v_j>)=a$ ，和 $\tau (<v_i, r, v_j>)=r$ 。

4.3 Subgraph Matching

两阶段启发式子图

对于 $e_i \in I$ ，先找出 $S$ 中类型与 $e_i$ 相同的事件节点， $E_i = \{e_j \in S | \tau(e_j) = \tau(e_i) \}$ 。

对于 $|E_i|=0$ ，无匹配；对于 $|E_i|=1$ ，有唯一匹配；对于 $|E_i|>1$ ，需要增加一个额外的匹配阶段，对每个 $e_j$ ，识别它的前一跳事件 $P$ （one-hop previous events），后一跳事件 $F$ ，以及论元角色 $A$ ，于是在模式图 $S$ 中：

然后在实例图 $I$ 中识别 $e_i$ 的上述三组， $P_I(e_i), F_I(e_i), A_I(e_i)$ 。求Jaccard索引数，取最高返回唯一解（如果出现多组值相同则随机返回）。

4.4 Neighbors

在实例图 $I$ 和模式图 $S$ 之间进行子图匹配后， $I$ 被映射到 $I'$ ，后者是 $S$ 中事件节点的子集。因此，我们的目标是学习一个预测函数 $f(e, I')$ ，它将输出新事件 $e \in S \setminus I'$ 是否是 $I' \subseteq S$ 的缺失节点的概率。在本小节中，我们用它们的邻居来测量 $I'$ 和 $e$ 之间的相关性。

本文选择了GNN作为基本模型，利用图的结构和节点特征来学习每个节点的表示向量。典型的GNN遵循邻域聚合策略，该策略通过聚合相邻节点的表示来迭代更新节点的表示。实现部分采用GCN。

假设GNN层数为K。因此，事件 $e$ 的最终层和子图 $I'$ 中的事件分别是 $h^K_e$ 和 $\{h^K_{e_i}\}_{e_i \in I'}$ 。然后，使用读出函数汇总 $I'$ 中的事件嵌入，并输出 $I'$ 的嵌入：

READOUT 函数可以是求和、平均或更复杂的基于注意力的聚合，因为子图中事件的重要性可能不同。最后，将 $e$ 和 $I'$ 的嵌入式连接起来，然后使用多层感知器（MLP）预测 $I'$ 丢失 $e$ 的概率：

4.5 Paths

在使用GNN处理映射子图 $I'$ 和候选事件节点 $e$ 的节点邻接时，使用节点类型作为初始节点特征，这可能导致模型无法识别 $I'$ 和 $e$ 之间的距离。为了使模型捕获距离信息，对子图和节点之间的连接模式进行建模，其特征是在模式图中连接它们的路径。具体来说，连接两个节点 $s$ 和 $t$ 的路径是一个节点和边的序列：

$<i, j>$ 是连接节点 $i$ 和 $j$ 的边，路径中的每个节点都是唯一的。在这项工作中，使用路径中的边的类型来表示路径，即，

我们使用 $P^{ \leq L}_{s \rightarrow t}$ 表示连接 $s$ 和 $t$ 的长度不超过L的所有路径的集合。

对于模式图中的一个给定的事件 $e$ 和一个子图 $I'$ ，我们收集连接 $e$ 和 $I'$ 中的每个事件节点的所有路径，作为( $e$ , $I'$ )的路径集：

然后转换为multi-hot bag-of-paths向量 $P^{ \leq L}_{e \rightarrow I'}$ ，其中每个条目表示如果存在特定路径 $P^{ \leq L}_{e \rightarrow I'}$ 。我们使用另外一个MLP去将 $P^{ \leq L}_{e \rightarrow I'}$ 视为输入，并且输出 $e$ 是 $I'$ 缺失的事件的概率：

最后，我们的预测函数 $f(e, I')$ 通过结合邻域模块的输出和路径模块的出书来实现：

4.6 Training

训练所提模型的一个潜在问题是，缺乏用于预测给定实例图中缺失事件的基本事实。因此，本文提出以自监督损失作为训练目标。具体来说，首先将训练数据中的每个实例图 $I$ 映射到模式图 $S$ ，得到匹配的子图 $I'$ 。然后，对于每个事件节点 $e \in I'$ , 将 $e$ 从 $I'$ 中屏蔽掉，并尝试用 $I'$ 的其余部分来预测 $e$ 。也就是将 $(e, I'/e)$ 视为每个 $e \in I'$ 的正向训练样本。同时可以随机抽样 $I'$ 以外的事件节点，即 $e \in S \setminus I'$ ，并将 $(e, I')$ 视为负样本。因此，总损失函数如下

公式所构建的训练数据可能是不平衡的。在这种情况下，我们可以使用下采样来重新平衡数据集。

五、实验

5.1 数据集

5.2 实验结果

效果有挺大提升的。

5.3 Case Study

游吟诗狂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Schema-Guided Event Graph Completion 阅读

实例图，包含有事件节点集合和实体节点集合，并且使用来表示从一个节点到其类型的映射函数。因此，在实例图中存在三种类型的链接(1)事件-事件时间链接，表示事件在事件之后按时间顺序发生，我们用“TEMP”表示时间链接的类型；(2)事件-实体链接，表示事件具有论元角色a，其值为实体；(3)实体-实体链接，表示实体和之间存在r的关系。具体来说，，和。
复制链接

扫一扫