论文:OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework

OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework

OIE task

OIE2016、Re-OIE2016、CaRB
在解决OIE任务时,有两种主流的方法,一是基于规则的方法,一是基于端到端的学习方法。

论文核心思想

将一个句子解析为OIA graph,然后,采用简单的规则,将OIA graph适用于不同的open information extraction任务。
open information annotation graph(OIA)是由句子中的phrase组成的。

论文架构

在这里插入图片描述
论文框架由两部分组成,一是OIA generator,二是adaptor OIE。

数据标注

由于目前没有OIA数据集,作者自己标注了一个OIA数据集,包含了12543个train samples,2002个development samples和2077个test samples。(三种节点类型:constant、predicate和function)
统计数据:train/dev/test samples,每个sample都是sentence-graph pair。
在标注上,利用了辅助注释系统,使用现有的基于规则的 OIA 系统为每个输入句子生成一个初始 OIA 图。对于节点类型初始化,我们将短语与 English-EWT v2.4 中的词性标签对齐,并根据中心词的词性标签分配OIA graph中的层次类型。然后我们为注释者开发了一个注释工具,以便轻松地修改适应的图形。
adaptor OIE部分是为每个OIE任务建立简单的rule,完成信息抽取。
质量控制上,**数据标注由三名语言学研究生/博士生完成。两个注释者首先标记每个样本。**如果有不同意见,将由第三位注释者参与讨论和投票。两个注释者的初始同意率约为 80%,讨论后(无需投票)最终同意率高于 93%。其余 7% 数据的标注通过投票获得。

模型训练

现在的预训练模型多是基于token级别的,但是,OIA graph是基于短语层级的,因此,需要,做一个转换。
word_OIA graphs:是采用bert模型,得到s=[w1,w2,…wn]的represention的。
在node attribute learning时,采用的是MLP 分类器。
node之间的边学习,分为两步,第一步是确定两个节点之间是否有边,第二步是确定边的类型。
关于一条边的start 和end node的学习:两个MLP层。
节点的表示:在这里插入图片描述
节点属性的计算

在这里插入图片描述
在这里插入图片描述

节点之间存在边的概率计算:

在这里插入图片描述
loss函数:
在这里插入图片描述
节点之间label的计算:
在这里插入图片描述

总的损失函数

在这里插入图片描述

word 图构建时,采用的greedy search的策略,选择边中的概率值>0.5中最大的边,然后,识别冲突的边,将edge_label的概率设为0,之后,重复上述过程,直到所有的边的类型都被设置为止。可能会出现一些无连接的sub-graphs,处理方式是选择edge概率分值的edge,连接到sub-graph中。
word graph转为OIA graph,

我们首先收集由 next_word 和相关弧(prev_arg,pos_arg)链接的 Word-OIA 图中的节点,以形成 OIA 图中的节点。然后我们识别边缘upper_parataxis等特殊结构,并将Parataxis和Missing等特殊节点添加到OIA图中。

转换实例

在这里插入图片描述
在这里插入图片描述

文中定义的OIA graph

细粒度的实体type:
在这里插入图片描述
在这里插入图片描述
根据下一章节中,adaptor部分的规则,可以解析得到:

  1. Verbal: the extracted facts using the rule are <“told”, “Ms. Lee, the
    headmaster”, “Lily and Jimmy”, “she is responsible for this”> and
    <“is responsible”, “she”, “for this”>
  2. VerbalPip: This produces <“is responsible for”, “she”, “this”> for the sample
    in Figure 2 instead of <“is responsible”, “she”, “for this”>.
  3. CoordSep: <told, ~, Lily and Jimmy, ~> is separated into <told, ~, Lily, ~> and <told, ~, Jimmy, ~>.
adaptor部分的规则

Verbal:OIA图中的verbal node,选择verbal node子树中的child作为fact的argument。
VerbalPiP:对于每个带有介词子节点的动词节点,我们将子节点合并到动词节点中,并将动词规则应用于生成的 OIA 图。(for each verbal node
with a prepositional child, we merge the child into the verbal node and apply the Verbal rule on the resultant OIA graph)
Appos(be):在OIA graph中类似于e <A, appos, B>的,更改为<be,A,B>
CoordSep:协调参数被分成多个事实元组。(<told, ~, Lily and Jimmy, ~> is separated into <told, ~, Lily, ~> and <told, ~, Jimmy, ~>)
论文在不同数据集上,采用OIE规则,如下:
• Adaptor@OIE 2016 = Verbal + CoordSep;
• Adaptor@Re-OIE 2016 = Verbal + Appos([is]);
• Adaptor@CaRB = VerbalPiP + Appos(is) +CoordSep.

当前论文中的局限性

OIE@OIA 管道没有分离复合名词短语,使其无法提取复合名词短语中不同名词之间的名词关系(Yahya et al., 2014)。这是因为当前的 OIA 图是短语级别的图,并且将名词短语作为单个节点。举个例子,“美国总统”将在我们的 OIA 图中形成一个单一的节点,它无法根据该图识别“总统”和“美国”之间的关系。我们把这个问题留作我们未来的工作。

错误分析

总结下来,就是不确定性和冲突性。

(1)长尾word和edge
(2)粒度问题。节点的粒度或边界在预测结果中可能存在争议。例如,短语“turn out to be”可以是谓词,但“turn out”和“to be”形成嵌套关系也是有意义的。这样的粒度问题在谓词节点和常量节点中都会导致大约 25% 的错误。挖掘成语可以通过精细化的策略进一步明确表达的边界。这属于我们未来的工作
(3)模棱两可的修改。介词短语可用于在其上下文中修饰名词或动词。这种模糊性导致了大约 17% 的图级错误。例如,句I love all the roles in this play,介词短语in this play是所有角色的修饰语。因此,它们应该在ground truth OIA grap的同一个名词节点中

总结

这篇文章提出了一种架构,用于不同数据集的信息抽取结构,但是,实用性,感觉空间不大。
是在统一的OIA graph的基础,设立OIE规则,提取出对应的知识。
但是,在OIA graph 构建上,是由标注数据集的,而目前,大多领域没有这类数据集。
所以,OIA graph构建,就是第一个问题。
没有数据集就是最大的问题。

至于OIE,是短语级别的规则设置,这对于细粒度的信息抽取,似乎并没有太友好,虽然,也提到,可以将短语设为更为细粒度的表示的潜力,但数据集,依旧没有。
总体感觉,不太友好。
但大家还是在统一范式上,下的功夫。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值