opennre 中文关系抽取_最新事件抽取技术进展

事件抽取是理解语言的一个重要基础,在金融领域尤其有用。在应用NLP技术前,很多金融从业人员真的是靠人盯新闻、公告。你想想,从那么长的一篇新闻或公告中找出一些风险信号或营销机会真的是费时费力。借助NLP技术从新闻、公告中抽取出企业名称、重要事件可以大大提升客户经理的工作效率。当然,真正能将这些技术应用到实际场景中还有很多其他的工作流程,以后有机会再介绍。

事件抽取包含触发词识别、事件分类和事件要素识别,其中触发词识别和事件分类又可以合成为事件发现(event detection)。当然,事件抽取是不是都得经过这三步才能得到,其实未必,后面会有文章介绍。事件抽取方法分为Pipeline和Joint两种模式,Pipeline是触发词识别、事件分类和事件要素识别的顺序执行,而Joint是将几种任务联合执行,同时得到结果。目前大部分方法聚焦在Pipeline模式,本文将介绍18、19年最新事件抽取相关文章,需要预先对LSTM、GCN和基于转移模型等有一定了解。下面所讲纯属个人思考,眼光有限,错误难免,谨慎参考。

近两年事件抽取文章大致可以分为模型创新、关系建模和其他三类,其中模型改进是引入一些新的建模方法,关系建模是引入关系信息并对其建模,其余属于其他类。本文列举的实验结果基本是ACE 2005。

  • 建模创新

>> Exploiting Contextual Information via Dynamic Memory Network for Event Detection

先前的序列建模主要集中在CNN、LSTM、Attention等,前几年提出了动态记忆网络,主要应用在在阅读理解任务上。本文将动态记忆网络应用到事件抽取任务上。创新点一般,一是主要是模型的应用,二是近两年阅读理解主要是基于BERT和BERT的融合模型。查看本文前建议先学习下动态记忆网络,然后再看本文模型(如图1,基本没有其他太大创新),从实验结果上看也不如最新出的一些事件抽取文章(如图2,可以和后面的实验结果进行对比)。总体来说,可借鉴性一般。

6a2726db9a48dc29c64a2f05cc183f1a.png
图 1

ab5134166c554bbf64b5c320dfc84b17.png
图 2

>> Event Detection without Triggers

本文提出了一种不需要识别触发词的事件抽取方法。传统的方法是先识别触发词,然后对触发词分类(即Pipeline模式)。本文的策略是对整个句子直接新进事件多分类(与Joint也稍微不一样,Joint是多个任务同时建模,这里只是一个Event分类的任务)。由于一个句子可能包含多个事件,本文是对每一个事件进行二分类判断,如有含有事件为1,否则为0,即转换为一个多标签的文本分类任务。具体来说提出了一个TBNNAM方法,如图3,将事件类别信息融入模型中,包含Vatt和Vglobal两类。另外,为了解决负样本比正样本多的问题,本文提出了一个bias损失函数。实验结果如图4,与图2对比,还是有些效果。

d7d7d07ce17de84d8879a94f04a31df6.png
图 3

3b8b64734e39e55f6b11ec6ad460f321.png
图 4

>> Extracting Entities and Events as a Single Task Using a Transition-Based Neural Model

本文将实体识别和事件抽取作为一个联合任务进行,并用基于转移的神经方法建模。查看本文可以先学习下基于转移的模型。为了解决本文的问题,定义了新的转移状态,如图5(a),动作分类深度模型如图5(b),基本是所有深度特征的concat,没有太多模型的创新。从实验结果看还有有些效果,超过了70%(如图6)。

213b7510f5d44ec50c23c4f1eb426457.png
图 5

aa71fa512573b651b79e75998517b644.png
图 6
  • 关系建模

模型创新主要是引入新的建模思路,数据信息方面没有丰富,而关系建模是在序列信息的基础上补充了关系信息,并借助新的关系模型来建模。这些文章又可以分为RNN类结构、GCN类结构和丰富关系信息三类,其中RNN类结构和GCN类结构是从模型的角度提升,丰富关系信息是从数据的角度提升。RNN类结构和GCN类结构理论上都可以应用到序列建模中,并且是这两年的热点,详见最新序列模型介绍(一)和最新中文NER模型介绍(二)的结构融合部分。关系信息包含句法信息、语义信息、社会关系信息等。需要注意的是,借助关系提升效果的前提是关系是准确的,比如句法信息,如果句法关系准确肯定有所提升,可如果句法关系本身识别有问题,那会引入一些错误信息到模型中。

RNN类结构

>> Event Detection with Neural Networks: A Rigorous Empirical Evaluation

本文借助DAG-GRU建模句法信息。单纯的GRU不能建模远距离的关系(两个token间远距离存在一条边),某种程度上是一种图结构。本文借助Attention解决某个token上存在多条边的问题,如图7。

5f2231e9bd59c47c2be7ac2e3d580f90.png
图 7

>> Jointly Extracting Event Triggers and Arguments by Dependency-Bridge RNN and Tensor-Based Argument Interaction

本文与上文类似,也是LSTM结构上引入了远距离关系(如句法分析,上文称之为DAG图)。不同的是上文借助Attention机制融合了远距离关系,本文是在LSTM cell的结构上做了一定修改,如图8,引入了dt门来控制远距离信息。

77f56eebdef1770718815c3cdf2d9a55.png
图 8

另一个创新点在于同时将Trigger和Argument分类联合训练,如图9。其中Argument分类稍显复杂,引入了Tensor层和Pooling层,联合训练采用Max-Margin方式,实验结果如图10所示。

9ea30c23ed94bbd9f8f6c5aef14bf0de.png
图 9

d9e891423f59cddbbf45a385a8245b5a.png
图 10

除了这两篇文章提的建模思路,最新中文NER模型介绍(二)的结构融合部分也都可以引入到这里建模,如Lattice-LSTM、WC-LSTM等。

GCN类结构

>> Graph convolutional networks with argument-aware pooling for event

本文输入输出信息与DAG-GRU相同,输入都是token信息和句法信息,输出是对每个token进行多分类。不同的是上文用DAG-GRU建模,而这里用GCN结构建模。相比于普通的GCN模型,本文的创新点在于用于BiLSTM初始编码信息和提出一个新的Pooling机制。实验结果如图11所示,可以看到GCN结构还是有些效果。

ae8034e1f7db1803fdbd0bbccf34df61.png
图 11

>> Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

本文可以看作是上文GCN模型的拓展,在GCN模型的基础上引入了self-attention机制进行事件分类,如图12红框标注。单纯的GCN模型在预测字/词的标签时没有考虑其他字/词的影响,本文借助self-attention机制考虑了这一信息。其实将self-attention替换为CRF理论上也是可以的,只是不知效果如何。图13显示了实验效果,与图11对比,还是有些效果提升。

4e6aab0f4f4cf9a45781baa3437f4246.png
图 12

6db65e351abb7448b6d0d242bb158298.png
图 13

丰富关系信息

上述RNN类结构和GCN类结构所用的数据都是相同,只是建模的思路不一样。它们的远程信息都只是基于句法分析,不足在于仅使用了句法信息,还有很多其他关系信息没有融合,如语义信息、地理位置信息等。

>> Graph based Neural Networks for Event Factuality Prediction using Syntactic and Semantic Structures

本文任务是事件真实性分类,基于GCN模型实现。有两点微创新,一是句子表示采用了BERT,二是关系考虑了句法和语义信息。

>> Fine-grained Event Categorization with Heterogeneous Graph Convolutional Networks

本文任务是细粒度事件分类,基于GCN模型实现。创新点是引入了丰富的社会关系,如话题、语义等信息。

  • 其他类

>> Nugget proposal networks for Chinese event detection

本文主要是解决中文触发词识别的问题。传统的事件识别是基于token的,这样会导致本来属于同一事件可能被拆成多个事件,特别是中文这种没有分隔符的。如“并购”,“并”可能属于Merge事件,“购”属于“Transfer”事件,但实际它属于一个事件。本文提出一个NPN模型解决这个问题,如图14(a),对于“购”这个token,给出多种候选触发词“司并购”、“并购”、“购”等,然后模型判断是哪一种可能性。具体流程包含混杂表示、Nugget判断和事件类型分类三个部分,其中混杂表示分为concat、general和task-specfic三种,如图14(b)。实验结果如图15,与前面一些结果对比,可以看到效果一般。

b4266fdb7d8d957c87c7de6c3aebf67e.png
图 14

d6533d6b2a7e549e30874d0e8dd2a6f5.png
图 15

>> Document Embedding Enhanced Event Detection with Hierarchical and Supervised Attention

本文引入了文档特征来丰富token的信息,这个方向应该是近两年很多NLP工作的热点。单纯依靠本句子的信息有时候未必足够,可以借助其他句子的信息来进行补充。具体建模方法如图16,红框就是补充的文档特征信息,最后与其他信息一起concat到LSTM模型中。稍微有一点创新,但主要还是文档信息方法的应用。但从实验结果来看(如图17),在ACE 2005上是所有方法中效果最好的。

ca12cc535f64deec2e6365419a4d8401.png
图 16

242edc812b48a0cb3416e68b0cf76a15.png
图 17

>> Document-Level Event Factuality Identification via Adversarial Neural Network

本文创新主要是构建了文档级的事件抽取数据集,并提出了一个baseline模型,如图18,主要包含了句子的语法(Dependency Syntactic Paths)和语义特征(Sentences)。

8edfac37d0f88dc88cb14637cced0bac.png
图 18

参考文献

最新序列模型介绍(一)

最新中文NER模型介绍(二)

Exploiting Contextual Information via Dynamic Memory Network for Event Detection

Event Detection without Triggers

Extracting Entities and Events as a Single Task Using a Transition-Based Neural Model

Event Detection with Neural Networks: A Rigorous Empirical Evaluation

Jointly Extracting Event Triggers and Arguments by Dependency-Bridge RNN and Tensor-Based Argument Interaction

Graph convolutional networks with argument-aware pooling for event

Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

Graph based Neural Networks for Event Factuality Prediction using Syntactic and Semantic Structures

Fine-grained Event Categorization with Heterogeneous Graph Convolutional Networks

Nugget proposal networks for Chinese event detection

Document Embedding Enhanced Event Detection with Hierarchical and Supervised Attention

Document-Level Event Factuality Identification via Adversarial Neural Network

表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页