Leveraging Knowledge Bases in LSTMs for Improving Machine Reading

28 篇文章 2 订阅

《Leveraging Knowledge Bases in LSTMs for Improving Machine Reading》

这篇文章是发表在2017年ACL上的,主要是聚焦于外部知识改善LSTM,运用在实体抽取和事件抽取任务。在ACE2005的数据集上得到了SOTA效果。

首先介绍这篇文章的两个知识库,一个是WordNet一个是NELL。

  • Word net是人工创造的一个词典,里面含有大量的同义词,以及他们之间的概念关系(上位词hypernym,part_of关系)。

比如(location, hypernym of, city),(door, has part, lock)

头实体和尾实体都是Wordnet中的同义词

  • NELL,是自动构建的,基于网页的知识库,存储了实体之间的关系。

比如(New York, located in, United States) , (New York, is a, city)

头实体和尾实体都是一个真实世界的名词短语实体,尾实体也可以是一个概念分类。

接下来分以下四部分介绍:

  • Motivation
  • Model
  • Experiment
  • Discussion

1、Motivation

  • 传统的方法将知识表示成离散的特征,这些特征的泛化性能很差,而且为了获得好的效果还需要特定任务的特征工程。
  • 在不同的文本之间,知识的使用也是不同的,比如说一词多义, Clinton,既可以表示一个人,也可以表示一个城镇。如果加入无关上下文的知识,可能会误导模型。

针对这两个问题,该篇论文提出kblstm,首先利用这个连续的知识的表示去加强循环神经网络的学习能力。

而且为了去有效的整合背景知识和当前文本,还提出了使用一种带有sentinel(哨兵)的attention机制,可以动态的决定是否要引入背景知识并且哪一条背景知识是有效的

2、Model

2.1 overview

模型这一部分主要是把外部知识引入到双向循环神经网络当中(2.2)。主要是在隐藏状态,加入外部信息。外部信息是通过连续编码,使用konwledge embedding的方法(2.3)
在这里插入图片描述

2.2 Knowledge-aware Bidirectional LSTMs

首先学习到知识库里面的concepts的向量。然后去检索当前词的相关候选concepts V ( x t ) V(x_t) V(xt),并且把它们整合到状态向量,得到 m t m_t mt ,去做预测。

核心是Knowledge model,对每一个候选去计算一个双线性,反应了concept 和当前隐状态的关系。
在这里插入图片描述

有时候一些kb可能会误导模型,为了解决这个问题,引入一个知识哨兵。两个作用:

  • records the information of the current context
  • use a mixture model to allow for better tradeoff between the impact of background knowledge and information from the context.

St计算方式如下:

首先,用前一时刻的状态和当前输入,过一个门函数,可以把这个门看成输出门,决定我要输出多少的信息,然后和状态向量进行计算。
在这里插入图片描述

接着和神经网络当中的状态进行双向性计算得到打分belta。
在这里插入图片描述
最后使用混合模型得到表示:
在这里插入图片描述
注意这个限制条件:
在这里插入图片描述

之前这个地方其实不是很理解。文章说的是为了权衡背景知识和来自于上下文的信息。但是最后输出的时候,只是做了一个简单的向量加和。而且st和前一部分的vt是两部分独立的。St并没有对前面的这些知识起到一个过滤或者说是什么的作用。所以前面的motivation说,st这个哨兵向量是为了决定是否要引入外部知识。就很迷。

解答:就是为了权衡背景知识和来自于上下文的信息。mt的来源有两部分,一部分是融入了背景知识的隐向量,一部分是只有当前信息的哨兵向量。
st这个哨兵向量是为了决定是否要引入外部知识,因为有限制条件,加和为1。所以当belta很大的时候,也就是我更加关注于上下文信息,忽略掉知识信息,那么可以用来解答motivation。zhi’q

2.3 Embedding Knowledge Base Concepts

对于wordnet,把当前词的同义词作为候选concept。

对于Nell,我们搜索当前词的实体和相关的概念分类(concept categories)作为候选concept。

使用知识图谱embedding方法去学习候选的表示。我们把一个concept定义成一个三元组,用一个打分函数去衡量三元组的相关性。打分函数主要是使用双线性函数。头实体和尾实体表示他们的向量。Mr是一个关系确定的embedding矩阵。
在这里插入图片描述

using the max-margin ranking objective:
在这里插入图片描述
对于word net我们使用预处理的数据[1]去训练。包括15万的三元组,4万的同义词和18个关系。对于NELL,使用其子集去进行训练,过滤掉了一些置信度少于0.9的名词短语。最终有18万的名词短语和258个概念分类。

3、Experiment

做了两个实验,第1个实验是实体抽取。第2个实验是事件抽取。

3.1 实体抽取

1、实体抽取结果
在这里插入图片描述
BiLSTM-Fea:a BiLSTM network that combines its hidden state vector with discrete KB features

2、我们设置了不同的KB,去验证外部数据的有效性。
在这里插入图片描述

3.1 事件抽取

1、实验结果
在这里插入图片描述
The first block in Table 5 shows the results of the feature-based linear models;
The second block shows the previously reported results for the neural models;
The third block shows the results of our models

4、Discussion

文章提出了两点,第1点是在循环神经网络当中融入了外部知识表示,第2点是引入了一个哨兵向量,能够去决定是否需要使用外部知识,而且也能够在用外部知识和用上下信息做权衡。

[1]Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Advances in Neural Information Processing Systems (NIPS)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彭伟_02

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值