IELM: An Open Information Extraction Benchmark for Pre-Trained Language Models
总结
将open IE 三元组抽取,建模为了基于NP phrase的beam 生成问题,beam生成是基于注意力分值的。
我们创建了一个 OIE 基准,旨在全面检查预训练 LM 中存在的开放关系信息。我们通过将预训练的 LM 转变为零样本 OIE 系统来实现这一点。令人惊讶的是,预训练的 LM 能够在标准 OIE 数据集(CaRB 和 Re-OIE2016)和我们通过远程建立的两个新的大规模事实 OIE 数据集(TAC KBP-OIE 和 Wikidata-OIE)上获得有竞争力的表现监督。例如,零样本预训练 LM 在我们的实际 OIE 数据集上优于最先进的监督 OIE 方法的 F1 分数,而无需使用任何训练集。 1
贡献点:
远程建立的两个新的大规模事实 OIE 数据集(TAC KBP-OIE 和 Wikidata-OIE)
OIE的信息抽取基准。(我理解的OIE,这篇文章是在open information extraction做三元组的信息抽取)
zero-shot OIE
将名词短语 (NP) 分块句子作为输入,并输出一组三元组。该方法首先通过将 NPs 编码为参数对来进行参数提取,然后使用预训练语言模型的参数(即注意力分数)通过解码来执行谓词提取。然后在我们的 IELM 基准上评估输出提取
使用预训练 LM 中的注意力分数来衡量序列和argument pair对之间的相关性。我们将该过程定义为一个搜索问题。给定一个argument pair,我们的目标是搜索连接该对的注意力得分最高的序列。为每个可能的序列计算一个分数在计算上是昂贵的,特别是当序列长度很大时,因此穷举搜索是难以处理的。我们将集束搜索作为一种近似策略来有效地探索搜索空间。使用beam search 选择k-best的候选,beam search的成本取决于k的大小和生成序列的长度。
实施过程:
- 从第一个argument开始搜索。第一个argument作为初始候选者添加到beam中。在图 2(a) 中,在第 0 步,“Dylan”被添加到光束中。总注意力分数初始化为 0。
• 如果当前候选者尚未达到第二个参数,则在光束中产生一个新的部分候选者。此操作执行以下操作:将下一个最大的参与令牌附加到当前候选的末尾以产生新的候选。总分随着相关注意力得分的增加而增加。在图 2(a) 的第 1 步,“born”被附加到当前候选者以产生部分候选者,因为“born”具有最大的注意力得分(0.2,如图 2(b)中突出显示)和“Dylan ”在注意力矩阵中。总分变为0.2。请注意,为简单起见,我们在此示例中仅考虑单头注意力。图 2(b) 中的“x”标记了搜索中未考虑的标记(在当前标记之前)以防止向后搜索。第2步采取相同的动作,得分变为0.5。
• 如果候选项已达到第二个argument,则停止搜索步骤,然后将候选项作为有效三元组添加到beam中。返回给定对的 (Dylan;出生于;明尼苏达州)。三元组的最终得分是0.7。
需要注意的是,注意力矩阵采用是word level,不是token level。