第十九届中国计算语言学大会(The Nineteenth China National Conference on Computational Linguistics, CCL 2020)于2020年10月30日—11月1日在线上举行,数字出版技术国家重点实验室研究人员参加了大会,并在大会上分别进行了“A Novel Joint Framework for Multiple Chinese Events Extraction”论文展示。欢迎相关领域的研究者关注并与我们合作,共同推进中文事件抽取的研究。
> 论文“A Novel Joint Framework for Multiple Chinese Events Extraction” 详细讲解视频网址: https://hub.baai.ac.cn/view/3264本研究提出一种基于预训练语言模型,通过定义事件三元组(触发词,事件要素角色,事件要素)构建的事件抽取联合模型以解决事件要素重叠问题。
作为信息抽取领域一个重要的研究方向,事件抽取旨在从非结构化的文本中抽取出事件信息,并以结构化的形式呈现出来。国际评测会议自动信息抽取会议(Automatic Content Extraction,ACE)将事件定义为:事件是发生在某个特定时间或时间段、某个特定地域范围内,由一个或多个角色参与的一个或多个动作构成的事情或状态的改变。根据ACE事件抽取任务定义,事件抽取包括四个子任务:触发词识别(trigger identification)、事件类型分类(event type classification)、事件要素识别(argument identification)以及事件角色分类(argument role classification)。通常将四个子任务合并为两个子任务:触发词分类(trigger classification)和事件要素分类(argument classification)。
当前的事件抽取根据学习方式不同,可以分为基于流水线模型(pipeline)的事件抽取方法和基于联合模型的事件抽取方法。目前,大部分事件抽取方法都是流水线模型学习方式,通过不同的模型(或者按次序使用同一个模型)来分别解决事件抽取的所有子任务。代表工作有Chen等(2015)、Nguyen和Grishman(2015)和Feng等(2016)构建的基于卷积神经网络(convolutional neural network,CNN)的事件抽取模型。流水线模型容易产生误差传播,而且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别。尽管当前已有一些事件抽取联合模型的工作(Nguyen等,2016;Liu等,2018;Nguyen等,2019),却很少有研究关注事件要素的重叠问题,即当一个事件提及中包含多个事件时,同一实体可能在不同的事件中扮演不同角色或不同角色的实体之间有重叠。
为解决上述事件要素重叠问题,本研究定义了事件三元组(触发词,事件要素角色,事件要素),将触发词和及其触发的事件要素和要素角色对应起来。通过事件三元组的定义将要素抽取转换为事件三元组抽取。模型先识别事件触发词和事件类型,然后基于预测的触发词进行事件三元组识别。本研究基于预训练语言模型构建事件抽取联合模型(如图1),将事件触发词分类任务和事件要素分类任务合并为一个70类的任务(33类事件触发词+35类事件元素+1个NULL词+1个 NULL类)。在模型解码阶段利用两个sigmoid激活的标注方式来分别标注触发词(事件要素)在各个类别(要素角色)对应的首和尾,从而解决了事件要素角色重叠问题。本联合模型不仅避免了基于流水线模型进行事件抽取产生的误差传播问题和要素重叠问题,而且捕捉了事件触发词和事件要素、要素角色之间的依赖关系。本研究提出的方法在国际评测任务ACE2005中文事件抽取数据集上进行测试,触发词分类精确率76.4%和召回率71.7%(F1值为74.0%),事件要素分类精确率53.7%和召回率46.7%(F1值为50.0%),有效提高了中文事件抽取的效果。
♦ ♦ ♦ END ♦ ♦ ♦
![2b3a7682402e6ddb1cfbf920f6f7be39.png](https://i-blog.csdnimg.cn/blog_migrate/31f75dab87a341e729ac10f016b66b46.jpeg)