事件抽取

一、事件抽取的定义

命名实体识别、关系抽取、事件抽取是NLP中信息抽取的主要任务。

事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来在自动文摘、自动问答、信息检索等领域有着广泛的应用。近些年来 ,事件抽取一直吸引着许多研究机构和研究者的注意力。MUC (Message Understanding Conference) 会议、ACE ( Automatic Content Extraction) 会议是典型的含有事件抽取任务的评测会议。在调研中发现,ACE 2005作为论文数据集占据了主流,ACE 2005的事件抽取数据集包括英文、中文和阿拉伯语。因此我们围绕ACE来介绍事件抽取的定义、事件类型等,我们以ACE 2005为例对事件进行介绍。

ACE定义中的事件由事件触发词(Event Trigger)和描述事件结构的元素(Argument)构成。事件触发词事件触发词(trigger)是能够触动事件发生的词,是决定事件类型最重要的特征词,决定了事件类别/子类别。元素用于填充事件模版,两者完整的描述了事件本身。

在这里插入图片描述
上图包含了两个事件,一个是Die,一个是Attack,分别是:
其中第一个事件是死亡事件(Die), 触发词为died,其argument包括:

  • Victim cameraman
  • Place Baghdad
  • Instrument American tank
    第二个事件是攻击事件(Attack), 触发词为fired, 其argument包括:
  • Target Palestine Hotel
  • Place Baghdad
  • Target cameraman
  • Attacker American tank

事件抽取任务可以由下面两个步骤主要组成:

事件检测(Event Detection):主要是根据上下文识别出触发词以及代表的事件类型和子类型,ACE2005定义了8种事件类别以及33种子类别,每种事件类别/子类别 对应唯一的事件模版。

事件元素识别(Argument Detection):事件元素是指事件的参与者。根据所属的事件模版,抽取相应的元素,并为其标上正确的元素标签。

二、ACE2005数据集事件类型

ACE数据集一共定义了8种大类,33个子类,每个子类都有一个事件的模板。
在这里插入图片描述
比如:Life/Marry 是结婚事件,Marry事件是官方活动,两人在法律定义下结婚。其模版包括一个participate slot和两个attribute slot,如下图3所示
在这里插入图片描述
例如Conflict/Attack是攻击事件,ATTACK事件被定义为导致伤害或损害的暴力行为。ATTACK事件包括INJURE或DIE亚型未涵盖的任何此类事件,包括没有指定代理的事件。ATTACK事件类型包括较少具体的暴力相关名词,如“冲突”,“冲突”和“战斗”。如果只是为了保持一致性,那么具有事件和武器品质的’枪火’应该总是被标记为ATTACK事件。“政变”是一种攻击(也是一场“战争”)。事件模版包括3个participate slot和2个attribute slot,如下表所示。
在这里插入图片描述

三、技术思路

现在已经明确了事件抽取的两个步骤:一个是trigger token的识别,另一个是事件要素的提取。
所以主要的思路与关系抽取类似,可以是pipeline的形式,也可以是Joint的形式。

百度AI2020事件抽取提供的baseline是使用pipeline的形式,第一步识别触发词,第二步再识别事件要素。使用预训练模型,第一步的tragger token的识别看作是序列标注问题,触发词与标注的类别对应。比如“求婚”对应类别“结婚”。
在这里插入图片描述
第二步也是序列标注问题。
在这里插入图片描述
用了两个序列标注把问题解决了,好像都没有用到关系抽取相关的。

参考:
https://zhuanlan.zhihu.com/p/42135074
https://blog.csdn.net/muumian123/article/details/81746583

相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页