aaa

Abstract

  • 现在的RE任务model,像ACE(RE任务数据集)是基于手工标注的监督学习任务。
  • 我们的方法:
    • 我们研究了一种不需要标记预料的可替代的范式(一种新的可替代方法),可用于任意大小的语料库,并且避免了ACE类算法的领域依赖性(ACE算法的缺点
    • 我们的实验用FreeBase为Distant Supervision提供支持(FreeBase:一个包含数千种关系的庞大语义数据库)
      对于FreeBase中某些关系对应的实体对,我们在一个大型未标注的语料中找到所有包含这个实体对的句子,并抽取文本特征(extract textual features)来训练一个关系分类器
    • 我们的算法模型整合了监督信息抽取(Information extraction) (combining 400000 noisy pattern features in a probabilistic classifier) 和无监督信息抽取 (extracting large numbers of relations from large corpora of any domain) 的优点。
  • 模型效果:
    • 在102种关系上抽取了10000个instance的precision为67.6%
    • 特征表现(feature performance)表明 句法分析特征(syntactic parse features)对关系很有帮助,尤其是模棱两可的关系和词汇距离较远的关系。

1. Introduction

至少有3中方法用来进行关系抽取。

Supervised relation extraction

在监督学习方法中,首先需要手工标注实体和它们之间的关系。
例如:

  • The NIST Automatic Content Extraction (ACE) RDC 2003 and 2004 corpora
  • 包含5-7种主要关系,23-24种子类关系的实体对的超过1000篇文献,共16771条关系实例

ACE系统提取各种各样的词汇,句法和语义特征(extract a wide variety of lexical, syntactic, and semantic features,),并(用监督学习训练好的model)预测测试集中的给定实体对之间的关系(relation mention)并可选择的组合关系(optionally combining relation mentions)。 (Zhou et al., 2005; Zhou et al., 2007; Surdeanu and Ciaramita, 2007)

  • 监督关系抽取缺点:
    • 标注数据代价较高,数量有限
    • 一般都是标注特定语料(particular corpus),因此训练的分类器会偏向于该领域。

Unsupervised information extraction

另一种方法是纯粹的无监督信息提取,提取大量文本中实体之间的字串,并将这些字串进行聚类和简化,从而产生关系串。(Shinyama and Sekine, 2006; Banko et al., 2007)

缺点:

  • 无监督方法可以使用非常大量的数据并提取非常大量的关系
    但是产生的关系可能不容易映射到特定知识库所需的关系。

bootstrap learning with a very small number of seed instances or patterns

第三种方法是使用很少数量的种子实例或模式进行引导学习。 (Brin, 1998; Riloff and Jones, 1999;Agichtein and Gravano, 2000; Ravichandran andHovy, 2002; Etzioni et al., 2005; Pennacchiottiand Pantel, 2006; Bunescu and Mooney, 2007;Rozenfeld and Feldman, 2008)。

这些种子与大型语料库一起使用,以迭代方式提取一组新的模式,这些模式用于提取更多实例,这些实例用于提取更多模式。 产生的模式通常遭受精度低和语义漂移的困扰。(low precision and semantic drift)

(ours)Distant Supervised

远程监督结合了每种方法的优点。

远距离监督是斯诺等人使用的范式的扩展。【is an extension of the paradigm used by Snow etal. (2005)】利用WordNet来提取实体之间的上位词(is-a)关系,类似于在生物信息学中使用弱标记数据。 (Craven and Kumlien, 1999; Morgan et al.,2004).

"""
弱标记数据的解释:
reference:https://stats.stackexchange.com/questions/135065/what-is-weakly-labeled-data

What is weakly-labeled data and is there any strongly-labeled data? 
In what situation do we use them?

Answer:
Weakly-labeled data is data that has not explicitly been labeled by hand / manually.
However, it is not unlabeled, 
because you know that certain assumptions do hold for an entire data set.

To give an example, 
let's say you want to design some recognition software that works with images of humans.

A labeled (infrequently also called fully-labeled or strongly-labeled) data set 
would not only contain the images of specific humans, 
but would also contain labels that were created manually, 
like gender, hair color, occupation, body height, weight, ...

A weakly-labeled data set would only contain unlabeled sets of images including meta information 
that holds for every image inside a set. 
For example, if you do not label the images, 
but record only male people, only firemen, ... 
then you basically have "unlabeled" data but you know at least some meta-information 
that you can use to categorize your data. 
Thus, the knowledge of this data is less strong / informative compared to labeled data, 
but it is not zero.

An unlabeled data set in comparison really contains zero information 
that could be used to distinguish single samples of the data set. 
For our example of humans this would be recording people of any gender, hair color, occupation, ..., 
resulting in one big data set without meta information about the single samples.
"""

我们的模型由FreeBase为关系抽取提供远程监督支持,其包含1.16亿实体。

远程监管的直觉是,包含一对参与已知Freebase关系的实体的任何句子都可能以某种方式表达该关系
The intuition of distant supervision is that any sentence that contains a pair of entities that participate in a known Freebase relation is likely to express that relationin some way.

由于可能有许多句子包含一个给定的实体对,我们可以提取大量(可能有噪声的 - potentially noisy))特征,这些特征组合在逻辑回归分类器中。

因此,尽管有监督的训练范例将只有17,000个关系实例的小标签语料库作为训练数据,但我们的算法可以使用大量的数据:更多的文本,更多的关系和更多的实例。 我们使用120万篇维基百科文章和180万个实例,连接102万个关联,涉及940,000个实体。
此外,在大型分类器中组合大量特征有助于消除特征不良的问题。
In addition, combining vast numbers of features in a large classifier helps obviate problems with bad features.
因为我们的算法是由数据库而不是标签文本来监督的,所以它不会遭受困扰监督系统的过拟合和领域依赖性问题。 数据库的监督还意味着,与非监督方法不同,分类器的输出使用规范名称表示关系。

我们的范例提供了一种自然的方式,可以整合来自多个句子的数据来确定两个实体之间是否存在关系。 由于我们的算法可能使用大量未标记的数据,因此一对对可能在测试集中出现多次。对于每对实体,我们将来自该对出现的许多不同句子的特征汇总到单个特征向量中,从而使我们能够提供具有更多信息的分类器,从而得到更准确的标签。

表1显示了我们的系统提取的关系实例的示例。 我们还使用此系统研究了关系提取中的句法和词汇(单词序列)功能的价值。众所周知,句法功能至少可以使用干净的手工标记ACE数据来提高监督IE的性能(Zhou等, 2007年; Zhouet等人,2005年),我们不知道语法功能是否可以提高无监督或远程监督IE的性能。 以前有关引导或无监督IE的大多数研究仅使用简单的词法功能,从而避免了解析的计算开销(Brin,1998; Agichtein和Gravano,2000; Etzioni等人,2005),以及少数使用无监督IE的系统没有比较这两种特征(syntactic versus lexical 语法和词汇)的性能。
在这里插入图片描述

2. Previous Work

除了上面讨论的非监督算法外,以前对关系提取进行监督或引导的方法通常都依赖于相对较小的数据集,或仅依赖于少量不同的关系。 基于WordNet的方法通常只考虑上位关系(is-a)或同义词(part-of)关系(Girju等人,2003; Snow等人,2005),而基于ACE程序的方法(Doddington等人,2004)被限制在少数关系实例和少于一百万个单词的语料库中。

许多用于关系提取的早期算法使用的语法信息很少或没有。 例如,Brin(1998)的DIPRE算法使用基于字符串的正则表达式来识别诸如 auther-book 之类的关系,而Agichtein和Gravano(2000)的SNOWBALL算法通过单词和命名实体标签学习了类似的正则表达式模式。

较新的方法已经使用了从输入句的解析中获得的更深层的句法信息(syntactic information)。

也许最类似于我们的远程监管算法的是Wu和Weld(2007)的有效方法,他们通过使用页面信息框的监管从Wikipedia页面提取关系,而不同于他们的特定于语料库的方法,该方法专门针对(单个) 在Wikipedia页面上,我们的算法允许我们从许多不同的文档以及任何体裁中提取关系的证据。

3. Freebase

根据文献,我们使用“关系”一词来指代实体之间的有序二元关系。 我们将此关系中的单个有序对称为“关系实例”(relation instances’)。

For ex-ample, the person-nationality relation holds between the entities named ‘John Steinbeck’ and‘United States’, so it has 〈John Steinbeck, United States〉 as an instance.

We use relations and relation instances from Freebase, a freely available online database ofstructured semantic data.

Freebase还包含许多关系的反向关系(book-author v. author-book),并且这些关系被合并。 过滤和除去除最大关系之外的所有关系,使我们获得了连接90万个实体的102个关系的180万个实例。

Examples areshown in Table 2.
在这里插入图片描述

4. Architectre

The intuition of ourdistant supervisionapproachis to use Freebase to give us a training set of rela-tions and entity pairs that participate in those rela-tions.

远程监管的直觉是使用Freebase为我们提供了一组关系和该关系对应的实体对的训练集。

在训练步骤中,使用带有名称的人员,组织和地点的命名实体标记器以句子的形式识别所有实体。 如果一个句子包含两个实体,而这些实体是我们的Freebase关系之一的实例,则从该句子中提取特征并将其添加到该关系的特征向量中。
if a sentence contains two entities and those entities are an instance of one of our Freebase relations, features are extracted from that sentence and are added to the feature vector for the relation.

The distant supervision assumption is that if two entities participate in a relation, any sentence that contain those two entities might express that rela-tion. Because any individual sentence may givean incorrect cue, our algorithm trains a multiclass logistic regression classifier, learning weights for each noisy feature. In training, the features foridentical tuples (relation, entity1, entity2) from different sentences are combined, creating a richer feature vector.

在测试步骤中,再次使用命名的实体标记器标识实体。 这次,将句子中一起出现的每对实体视为潜在的关联实例,并且每当这些实体一起出现时,就在句子上提取特征并将其添加到该实体对的特征向量中。例如,如果一对实体出现在测试集中的10个句子中,并且每个句子都从中提取了3个特征,则该实体对将具有30个相关特征。测试语料库中每个句子中的每个实体对都是通过特征提取进行的,回归分类器根据出现的所有句子中的特征预测每个实体对的关系名称(relation name)。

请注意,我们架构的主要优势之一是它能够合并来自同一关系的许多不同提及的信息。
Note that one of the main advantages of our architecture is its ability to combine information from many different mentions of the same relation.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值