笔记整理:陈道祺,天津大学硕士生,研究方向为知识图谱
链接:https://dl.acm.org/doi/10.1145/3539618.3591763
1. 动机
知识图谱(KG)作为结构化知识的一种形式,可以为各种实际应用提供后端支持,包括信息检索、问答和推荐系统。知识图构建的目的是从文本中自动检索特定的关系三元组和事件。作者认为目前的方法存在明显局限,其中包括:
自然语言和具有预定义模式的输出结构化知识之间的语义差距,这意味着模型无法充分利用受限制的模板来提取语义知识。
先前的基于提示的学习方法依赖于参数化范式,这种范式可能无法充分发挥预训练语言模型的潜在类比能力。在参数化空间中,模型可能难以学习复杂的例子,并且在有限的训练数据情况下表现不稳定。
为解决以上的问题,作者提出了schema-aware Reference As Prompt (RAP),该方法动态地利用符号模式和从示例中继承的知识作为提示,以增强知识图谱构建的 PLM。具体来说,作者将来自人工标注和弱监督文本的实例与结构化模式进行对齐;这样,符号知识和文本语料就处于同一表征学习空间。然后,作者构建一个统一的参考存储,其中包含从符号模式和训练实例中获得的知识。为了解决利用参考知识的问题,作者提出了基于检索的参考整合,以选择信息丰富的知识作为提示。由于并非所有外部知识都有优势,因此作者利用基于检索的方法,从模式感知参考存储中动态选择与输入序列最相关的知识作为提示。
2. 亮点
RAP的亮点主要包括:
(1)RAP方法能够动态地利用来自人工注释和弱监督数据的模式和知识,作为每个样本的提示。这使得知识图构建可以更灵活地利用模式和知识,而不仅仅依赖于先前固定的提示模板。
(2)实验结果表明,RAP方法在低资源环境下表现出色,尤其是在关系三元组提取和事件提取等知识图构建任务上。这表明它具有提高数据有效性的潜力,尤其在资源受限的情况下。
(3)引入了一种检索增强方法,称为 "Schema-aware Reference As Prompt (RAP)"。这个方法旨在解决当前知识图构建方法的局限性,通过检索与结构化模式相关的知识作为提示,从而提高了数据有效性。
3. 概念及模型
本篇文章主要将RAP 应用于知识图构建的两个代表性任务,即事件提取和关系三元组提取。
事件提取 (Event Extraction):事件提取是从非结构化自然语言文本中自动提取事件的过程,受事件模式的指导。为了澄清这一过程,使用以下术语:
(1)触发词(Trigger Word):最准确地描述事件的词或短语。
(2)事件参数(Event Argument):与事件相关的实体或属性,如时间或使用的工具。
例如,句子 "A man was hacked to death by the criminal" 描述了一个由词 'hacked' 触发的攻击事件。这个事件包括两个论元角色:攻击者(criminal)和受害者(a man)。模型应该能够识别事件触发器、它们的类型、参数以及它们的相应角色。
关系三元组提取 (Relation Triple Extraction):从非结构化文本中联合提取实体及其关系,这些关系以三元组形式(主体、关系、客体)表示,是知识图构建中的重要任务。给定输入句子,期望的输出是关系三元组 ,其中 是主实体