[论文阅读笔记10]A General Framework for Information Extraction using Dynamic Span Graphs

39 篇文章 13 订阅

1. 题目

论文题目:A General Framework for Information Extraction using Dynamic Span Graphs
使用动态跨度图提取信息的通用框架
论文来源:NAACL 2019 Google AI Language, 华盛顿大学

论文链接:https://www.aclweb.org/anthology/N19-1308/

代码链接:https://github.com/luanyi/DyGIE

关键词:信息抽取,dynamic span graph, ELMo,Bi-LSTM

DYGIE:Dynamic Graph IE (动态信息检索图)

2. 作者

Yi Luan† Dave Wadden† Luheng He‡ Amy Shah† Mari Ostendorf† Hannaneh Hajishirzi†
†University of Washington 华盛顿大学
∗Allen Institute for Artificial Intelligence
‡Google AI Language

3. 摘要

介绍span动态图。
节点:由最可信的实体;
边:置信加权关系类型与共指关系;
表示学习:动态图可以通过边关系(关系类型与共指关系)迭代学习更新 span的表示。
最大创新:提出了图,与之前的基于多任务共享模型不同;
效果:多个IE任务上超越了state-of-the-art ,span枚举(enumeration)有助于检测出嵌套(nested)的span实体;
对NER的nested实体有贡献。

4. 概述

IE任务通常有三个:
a. entity recognition: 一个span的分类;
b. Relation Extraction(RE): 一对spans的关系分类;
c. Coreference resolution: 一组spans的聚类.
目前对IE任务研究情况:
a.pipeline approach;(管道方法)
缺点:cascading errors(级联错误)
b.joint modeling;(联合建模)
缺点:大部分应用于具体领域,及依赖于span表达模型中的LSTM的第一层的参数共享。
DYGIE:
a. 使用动态结构图共享span的表示的多任务学习(实体识别,关系识别,指代识别) – 这个是任务性质定义。
b. 节点是来自动态选择一组高可信的提及;边是关系或指代,权重是其相关置信分类; — 这个图的构建定义。
c. 区别于传统的只是共享span共享表达参数,它是能过指代与关系来propagating(传播)信息来共享。—这个是图的性质。
d. 区别于传统的一个文本span至少是一个实体的BIO体系,对于overlapping实体,它会把所有可能的spans都枚举与表示出来。
主要贡献:
a. 引入了动态span图框架去传播全局的上下文表达,使编码全局性成为可能。
b. 提出模型在ACE2004, ACE 2005, SciERC and the Wet Lab Protocol Corpus这四个数据集上获得了SOA的成果;
c. 在overlapping实体扣检测有很大的提升。

5. 相关工作

joint modeling

引用题目年份来源
【1】End-to-end relation extraction using lstms on sequences and tree structures2016ACL
【2】End-to-end neural relation extraction with global optimization2017EMNLP
【3】Joint infernce of entities, relations, and coreference2013ACM
【4】Joint extraction of events and entities within a document context2016计算语言学协会

DYGIE大的思想方向。
multi-task learning

题目年份来源介绍
Named entity recognition for chinese social media with jointly trained embeddings2015EMNLP
Cross-sentence n-ary relation extraction with graph lstms2017TACL
Multi-task learning for speaker-role adaptation in neural conversation models2017IJCNLP
Multi-task identification of entities, relations, and coreference for scientific knowledge graph construction2018EMNLP不同的任务共享跨度表示,通过传递回LSTM层的梯度间接地包含更广泛的上下文。

DYGIE通过propagating(传播)信息来共享。
overlapping spans

引用题目年份来源
Katiyar and Cardie (2018)Nested named entity recognition revisited2018NAACL
Wang and Lu (2018)Neural segmental hypergraphs for overlapping mention recognition2018EMNLP

GYDIE完全放弃序列标记,简单地考虑所有可能的跨度作为候选实体。
Neural graph-based models
以前对于基于图的研究工作,节点都是预定义好的,在整个学习过程固定的。
DYDIE中实体边界不要求是固定的,主要动机来自:

动机题目年份来源
coreference resolutionEnd-to-end neural coreference resolution2017EMNLP
coreference resolutionHigher-order coreference resolution with coarse-to- fine inference2018NAACL
semantic role labelingMulti-task identification of entities, relations, and coreference for scientific knowledge graph construction2018EMNLP

GYDIE采用beam pruning策略动态地选择高质量的spans,并以所选spans为节点构造图
SOA RE models
以前获得好效果的RE模型依赖于某个领域的句法分析工具,从句法分析工具中获取句子中实体的存存关系。缺点:cascading errors,难泛化。
GYDIE不使用句法分析工具,把带有ELMo嵌入的多任务学习模型与多任务交互的动态传播图相结合。

6. 模型

6.1 问题定义

spans可以理解为单词或短语。
输入:所有句中可能的spans序列集合。
输出三种信息:实体类型,关系分类(同一句),指代链接(跨句);

6.2 模型

多任务:identify and classify entities, relations, and coreference

6.2.1 Model Architecture

image-20210118154614490

Token Representation Layer(Token表示层):BiLSTM
Span Representation Layer(span表示层): 初始化来自BiLSTM输出联合起来,加入基于注意力模型。
Coreference Propagation Layer(指代传播层):N次传播处理,跨span共享上下文信息
Relation Propagation Layer(关系传播层):与指代传播层相似
Final Prediction Layer(最终预测层):去预测任务—实体任务,关系任务

6.2.2 动态图构建与span细化–解释指代与关系连接是怎样去更新的?

对于一些迭代传播操作,是图的一个学习运算。

Coreference Propagation–指代传播

image-20210118172730689

Relation Propagation–关系传播

image-20210118172748432

Updating Span Representations with Gating(使用门控去更新span表示)

这个更新就是每个阶段的学习了。

image-20210118172814373

6.3 训练

损失函数—包括了三个部分的损失加权和

image-20210118173103061

7. 实验

对于模型从两个方面去分析性能:第一方面,组合实体与关系抽取;第二方面,overlapping实体抽取。

实验1Entity and relation extraction
数据集: ACE2004, ACE2005, SciERC ,Wet Lab Protocol Corpus

image-20210118173552615

与Baselines对比

Miwa and Bansal (2016):使用依赖关系解析信息构建Tree LSTM ; 并对于关系分类通过这棵树结构作为特征去表达学习。

Bekoulis et al. (2018):使用对抗性训练作为神经模型的正则化。

Zhang et al. (2017):将联合实体和关系提取作为表填充问题,并构建一个全局优化的神经模型,其中包含来自依存分析的句法表示。

Sanh et al. (2019) :使用多任务去抽取实体,关系,指代标签;分层监督训练,在模型低层是比较低级别的任务,顶层则为更复杂的任务。

Luan et al. (2018a): 使用多任务去抽取实体,关系,指代标签;并使用了基于span的神经网络。

Kulkarni et al. (2018): LSTM-CRF;

image-20210118174133072

结论:DYGIE在实体与关系抽取在四个数据,三个领域上都有很大的提升。

实验2Overlapping Entity Extraction

数据集:ACE2004, ACE2005,GENIA

image-20210118181644772

Baselines对比

image-20210119094900692

Wang and Lu (2018): 联合分段超图与神经网络进行特征学习。

Katiyar and Cardie(2018):提出了一个通过使用一个递归神经网络作为特征抽取器的超图方法。

DYGIE可以很有效地对带overlapping实体的不同领域进信息抽取。

8. 图传播分析

对模型中各个组件的作用进行分析。这个也叫Alation Study。简单讲,就是验证效果的有效性是否是提出的那一块组件起的作用。

8.1 Coreference and Relation Graph Layers – 指代与关系图层分析

使用ACE05与SciERC的数集来研究DYDIE加入的图传播是否有用?

CorefProp: 去掉指代传播层;RelProp:去掉关系传播层;Base:没有传播层的系统。

image-20210119095721079

image-20210119095745363

在ACE05数据集中,指代传播在实体有用,可是在关系抽取那里效果不好。指代传播对于SciERC的影响还是比较小的。

8.2 Coreference Propagation and Entities

“跨句指代实体种类消歧”–这里研究代词指代上文哪种类型的实体,传播在实体抽取的怎样影响?

image-20210119101543887

DYGIE的指代传播可以对“跨句指代实体种类消歧”上的实体抽取有很大的作用。

image-20210119103336864

这里想说明指代传播对于各类的影响情况。可是这个表没有太看懂???为什么有负数?

image-20210119105043934

指代传播在迭代N=2时有最好的性能 。

8.3 关系传播的影响

image-20210119105233256

关系传播对于越多实体的情况,影响就超大。迭代次数M=2时效果是最好 的。

9. 总结

对于DYGIE提出,介绍,获得很好的效果的描述,整个文章的研究思路很清晰。

模型没有依赖例如依存分析的第三工具,靠图的指代及关系传播来取信息特征。

下一步方面:围绕这个模型进行研究,例如把这个模型应用到事件抽取方面。

个人感受,阅读过程就好像跟一个非常专业的大师在学习,无论是思想,还是研究方法,还是论文写作上都受益不少。非常喜欢这样论文,实在不空洞,有理有据。

10.参考

【1】Makoto Miwa and Mohit Bansal. 2016. End-to-end relation extraction using lstms on sequences and tree structures. In Proc. Annu. Meeting Assoc. for Computational Linguistics (ACL), pages 1105–1116.
【2】Meishan Zhang, Yue Zhang, and Guohong Fu. 2017.
End-to-end neural relation extraction with global optimization. In Proc. Conf. Empirical Methods Natural Language Process. (EMNLP), pages 1730–1740.
【3】Sameer Singh, Sebastian Riedel, Brian Martin, Jiaping
Zheng, and Andrew McCallum. 2013. Joint inference of entities, relations, and coreference. In Proc.
of the 2013 workshop on Automated knowledge base
construction, pages 1–6. ACM.
【4】Bishan Yang and Tom M Mitchell. 2016. Joint extraction of events and entities within a document context.
In Proceedings of the 2016 Conference of the North
American Chapter of the Association for Computational Linguistics: Human Language Technologies,
pages 289–299.

happyprince.https://blog.csdn.net/ld326/article/details/112802292

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值