Automatic Extraction of Commonsense LocatedNear Knowledge

Automatic Extraction of Commonsense LocatedNear Knowledge

常识性临近知识的自动提取

image-20211020152850946记录个人论文学习笔记!仅限学习!!!

期刊/会议(年份)

会议名称:

Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) ACL

会议时间:

2018/01/01

源码:CODE

简要概括

常识性临近关系是一种常见性的知识,描述两个在现实生活中通常很接近的物理对象。在本文中,我们研究了如何通过一个句子级关系分类器自动提取这种关系,并从大型语料库中聚合实体对的得分。此外,我们还发布了两个基准数据集用于评估和未来的研究。

论文主要内容

研究问题

本文旨在从文本语料库中自动提取物理对象之间的常识性临近关系。

我们提出了从文本语料库中提取临近关系的两个新任务。一个是句子级关系分类问题,判断一个句子是否描述了两个(句子中提到的)在物理上靠近的物体。另一个任务是根据大量句子的分类结果生成一个临近事实的排序列表。我们相信这两个任务都可以用来自动填充和完成现有的常识知识库。

主要贡献

我们提出了基于特征模型和基于lstm的神经结构的方法来解决这些问题。所提出的神经结构与目前最先进的通用关系分类方法相比,具有较好的优越性。从我们相对较小的建议数据集中,我们总共提取了2067个不在ConceptNet中的临近三元组。

研究方法

句子级临近关系分类

基于特征的方法

我们的第一个基线方法是基于许多关系提取模型中常用的以下特征的SVM分类器:

  1. Bag of Words(BW):在句子中出现过的一组词。
  2. Bag of Path Words (BPW):句子依存树中对象 e i e_{i} ei e j e_{j} ej之间最短依存路径上出现的单词集合,加上树中以 e i e_{i} ei e j e_{j} ej为根的两棵子树中的单词。
  3. Bag of Adverbs and Prepositions (BAP):句子中副词和介词以二元形式存在。
  4. Global Features (GF):句子的长度,整个句子中名词、动词、副词、形容词、限定词、介词和标点符号的数量。
  5. Shortest Dependency Path features (SDP):与GF相同的特征,但分别是句子的依赖解析树和 e i e_{i} ei e j e_{j} ej之间的最短路径。
  6. Semantic Similarity features (SS):预先训练的两个宾语词的GloVe词嵌入之间的余弦相似度。

LSTM-based神经体系结构

image-20211020160912708

我们观察到临近关系在实例<s,e1,e2>中的存在依赖于两个主要信息源:一个是句子s的语义和句法特征,另一个是对象对<e1,e2>。根据这种直觉,我们设计了基于lstm的模型,包括两个部分,如图2的下面部分所示。左边部分是对句子s的句法和语义信息进行编码,右边部分是对e1和e2预先训练的词嵌入之间的语义相似度进行编码。

仅依靠句子的原始词序存在两个问题:(1)句子中不相关的词会给模型带来噪声;(二)原句词汇量大,参数过多,容易造成过拟合。例如,给两句话“国王带着狗进了他漂亮的花园。”和“一个罪犯把狗带进了一个破旧的花园。”两个句子中的宾语对都是。“lead”和“into”这两个词对于确定对象对是否位于附近是至关重要的,但它们没有得到应有的重视。此外,“王”与“罪犯”、“美”与“穷”等不相关词语之间的语义差异,对“狗”与“花园”的共位关系也没有帮助,反而容易起到噪音的作用。

为了解决上述问题,我们提出了一种标准化的句子表示方法,该方法融合了每个实例中最重要和最相关的三种信息:义理化形式、词性标签和依赖角色。

我们首先将宾语对中的两个名词替换为“E1”和“E2”,所有与描述物理场景高度相关的动词、副词和介词都保持原词的义理化形式。然后,我们将动词和介词的主语和直接宾语(依赖解析树中的动词用nsubj, dobj,介词用case)替换为表示它们的依赖角色的特殊标记。对于其余的单词,我们只需使用它们的POS标记来替换原始单词。表1展示了四种标记。图2显示了我们规范化句子表示的真实示例,其中感兴趣的对象对是<dog,gardon>。

image-20211020162404007

除了原始序列的规范化标记外,为了获取更多的结构信息,我们还分别对每个标记到e1和e2的距离进行编码。这种位置嵌入(位置/距离特征)是(Zeng et al.,2014)基于判断两个目标名词之间关系所需要的信息通常来自与目标名词相近的词的直觉而提出的。

然后,我们利用LSTM对规范化表示加上位置嵌入的标记的整个序列进行编码。同时,将原始两个物理对象词的两个预先训练的glove 词嵌入(Pennington et al.,2014)输入到一个隐藏的稠密层中。

最后,我们将两个输出连接起来,然后使用sigmoid激活函数得到最终的预测结果。我们选择使用流行的二元交叉熵作为我们的损失函数,RMSProp作为优化器。我们在LSTM和嵌入层中采用dropout rate (Zaremba et al.,2014)为0.5,以防止过拟合。

临近关系抽取

图2的上半部分显示了我们从原始文本中挖掘临近关系的自动框架的总体工作流程。我们首先构造物理对象的词汇表,并生成所有候选实例。对于语料库中的每个句子,如果一个句子中出现了一对物理对象作为名词出现,则我们将句子级关系分类器应用到这个实例上。关系分类器产生一个概率分数,表示实例在临近关系存在时的置信度。最后,根据对象对对语料库中实例的所有得分进行分组并聚合,每个对象对都与最终得分相关联。挖掘出的具有分数的物理对可以很容易地集成到现有的常识知识库中。

具体来说,对于每个的宾语对<ei, ej>,我们会在语料库中找到所有提到这两个宾语的句子。我们使用句子级关系分类器对这些情况进行分类,并获得每个实例的置信度分数,然后将它们输入启发式评分函数f,以获得给定对象对的最终聚合分数。考虑累积和阈值,我们提出以下5个选择:

image-20211020163403320

实验设计、对比方案

结果表明,不含全局特征的支持向量机模型表现最好,这表明词袋特征在最短依赖路径上比在整个句子上受益更多。此外,我们注意到,DRNN在精度上表现最好(0.658),但不显著高于LSTM+Norm(0.654)。实验表明,LSTM+Word的召回得分最高,LSTM+Norm的就整体表现而言得分最高。原因之一是规范化表示减少了输入序列的词汇量,同时也保留了重要的语法和语义信息。另一个原因是临近关系是用介词/副词修饰的句子来描述的。这些词通常是从属树中的对象词的后代,在最短从属路径之外。因此,DRNN无法从树中两个宾语词的后代词中捕捉到信息,而LSTM+Norm可以很好地捕捉到这一信息。

image-20211020163918861

一旦我们使用LSTM+Norm获得每个实例的概率评分,我们就可以使用评分函数f提取临近关系。我们通过定量结果比较5种不同启发式选择的性能。我们对第3节中描述的500个常识临近对象对进行排名。表3显示了以Mean Average Precision (MAP)和Precision K为指标的排名结果。累积分数(f1和f3)一般比较好。因此,我们选择MAP评分为0.59的f=f3作为评分函数。

image-20211020164356191

定性地说,我们展示了15个对象对,其中一些在表4中f3得分最高。设置f3的阈值为40.0,这是临近对象对数据集(500对)中所有真对象对的最低非零f3评分,我们总共得到2067个临近关系,人工检测精度为68%。

image-20211020164411347

总结

本文提出了一种从语篇语料库中丰富临近关系的新方法。基于我们新收集的两个基准数据集,我们提出了几种解决句子级关系分类问题的方法。我们发现,现有的方法在这个任务上并没有很好地工作,并且发现基于lstm的模型并没有明显的优势比简单的基于特征的模型。然而,我们的多级句子规范化是有用的。

了几种解决句子级关系分类问题的方法。我们发现,现有的方法在这个任务上并没有很好地工作,并且发现基于lstm的模型并没有明显的优势比简单的基于特征的模型。然而,我们的多级句子规范化是有用的。

未来的发展方向包括:1)更好地利用远程监督来减少人力,2)结合知识图嵌入技术,3)将临近知识应用于计算机视觉和自然语言处理的下游应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值