事件抽取详细入门概述(Event Extraction) & ACE2005数据集

事件抽取的定义

  • 事件

作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。

  • 组成元素

    组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

    事件触发词(event trigger):表示事件发生的核心词,多为动词或名词;
    事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
    事件论元(event argument):事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位 ;
    论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

理解定义

事件抽取并不是从非结构化文本中抽取未知事件,而是在已经定义好了34类事件后
从文本中寻找事件触发词(event trigger),以匹配事件
并将事先定义好的事件模板中的每个角色(论元角色),找到它对应的实体。

比如 小明 攻击了 小红
通过早就定义好的模板

攻击事件
包括 攻击者 & 被攻击者 & 触发词(攻击,击打,等)

通过 攻击 判定句子中含有攻击事件 :事件匹配
再将 小明 对应到 攻击者
小红 对应到 被攻击者 : 事件论元(event argument)匹配

数据集

ACE2005数据集

事件是由ACE定义的事件,那么数据集自然也要采用ACE的事件抽取数据集-ACE2005数据集

ACE2005数据库解决了3项基本的任务——实体识别、值、事件表达式、关系和事件

结构如下:

1P: data subject to first pass (complete) annotation
1P: 须先通过(完整)注释的资料
DUAL: data also subject to dual first pass (complete) annotation
DUAL:数据也服从对偶第一遍(完整)注释
ADJ: data also subject to discrepancy resolution/adjudication
ADJ: 资料也有经争议解决/裁定
NORM: data also subject to TIMEX2 normalization
NORM: 数据也要服从TIMEX2标准化 

简单来说,每份数据都要通过两种方式进行标注,即1p标注,和DUAL标注,两种标注结果相同的自然认为标注正确,标注不同的通过仲裁裁定后,形成ADJ资料。

ACE2005EDC数据集

EDC代表事件抽取

ACE2005EDC数据集,对一个含有事件文本中的事件类型,事件触发词,事件论元在事件中扮演的角色都进行了标注。

包含英文,中文,阿拉伯语三种语言

除了ACE2005EDC数据集,我还没有找到含有标注了事件论元在事件中扮演的角色的数据集。

数据集的获取

ACE2005数据集是收费的,可在LDC联盟的官网上进行购买
ACE2005数据集获取的详细过程

LDC联盟-ACE2005

购买流程颇为复杂,首先要以组织的名义加入LDC,收取会员费

  • 非营利组织:2400美元/年
  • 营利组织:24000美元/年

LDC账号中拥有组织管理员,可将其他LDC账号拉入组织,共享获取数据集的权利

成为会员后才能购买各种数据集,当年会员对当年的数据集免费使用,不是会员后依然有权使用当年的数据集,其他数据集各自有报价。
ACE2005数据集 报价4000美元。

事件抽取方法

(阐述一下大体思路,详见下方知乎链接)

通常来说,事件抽取的基本任务都可以用四个子任务分解:

事件触发词检测 Event (trigger) detection

事件触发词分类 Event trigger typing 

事件论元识别 Event Argument Identification

事件论元角色识别 Event Argument Role Identification

注:Event Argument有不同翻译,本文翻译为事件论元

在2015年以及之前,对事件抽取(Event Extraction, EE)的工作思路主要聚焦于模式匹配或者统计机器学习方法。

基于模式匹配的方法在特定领域能取得较好的性能,但是移植性较差;
基于统计学习的方法通常能有较好的移植性,但是严重依赖于已标注的数据。

从2015年开始,有研究者尝试使用CNN/RNN(神经网络)来提取Event Mention中的语义,比较典型的有DMCNN与JRNN等模型,其评估结果比早期的一些Structure-Based Method有显著提升。使用DNN来捕捉语义的另一个好处是使用了蕴含特征更加丰富的词向量,因此事件抽取的结果不再很大程度上依赖于人工定义的局部/全局特征。

Pipelined Approach & Joint Approach

将所有子任务独立地视为分类问题的思想被称为 Pipelined Approach ,基于此类思想的方法会建立多个不同的模型(或者用同一个稍作修改的模型按顺序应用到每个子问题)来依次求解
这种方法的最大缺陷是Error Propagation:从直观上考虑,如果在第一步Triggers识别中就出现了错误,之后对Arguments的识别准确度会更低。尽管如此,使用Pipelined Approach划分问题的方式能够简化整个事件抽取任务,因此被广泛使用。Pipeline方法中比较经典的有15年提出的动态多池化卷积模型(DMCNN)。

另一种相对应的研究模式是尝试建立一个同时提取以上所有信息的模型,也即 Joint Approach 。这类方法目标是只建立一个模型,同时用于Triggers与Arguments的提取,此类方法的一大好处在于能够产生Triggers与Arguments之间的双向信息流交互(Pipeline中信息只能从Triggers流向Arguments),在DNN方法应用之前,表现最好的是[Li et. al.]提出的结构化感知机模型,16年由[Nguyen et. al]提出了JRNN模型,将RNN应用到了事件抽取任务中。

数据集的缺失

尽管研究者在模型设计上花费了很大的心思,然而横亘在事件抽取任务之上的还有一个不可忽视的问题:即 数据集的缺失
目前事件抽取最为广泛使用的数据集是[ACE, 2005]。以ACE数据集为例,其整体数据仅来源于599个英文文档,定义的33个事件类型中有超过60%的类型样本数不超过100个,甚至有3个事件类型的样本没有超过10个,数据稀疏的根本原因在于使用人力手动标注文本的时间与花费成本很高。因此,逐渐有学者开始研究对数据集的增强,如使用外部的语义知识框架进行数据的自动标注,使用半监督学习来对信息进行聚类标注,这些方法着眼于对数据的自动标注,以提高模型的泛化性能。更为直接地,另外一部分学者尝试直接从建模角度克服数据稀疏的问题,例如使用Zero-Shot Transfer Learning方式来提升模型对于未知事件类型的预测效果。

关于事件抽取最近的进展以及比较经典的模型方法,这里给一个回答的比较好的知乎链接
张成成成成的知乎回答

  • 15
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Ace2005数据集是用于命名实体识别和关系抽取任务的英文语言数据集Ace是Automatic Content Extraction的缩写,意思是自动内容抽取,它是由美国伯克利大学的计算机科学实验室维护和发布的,是自然语言处理领域中广泛使用的一个数据集Ace2005数据集中包含了来自新闻文章和训练文本的145,000个英文词语。数据集共包含六种实体类型:人名、组织机构名、位置名称、时间、货币和百分比,并且提供了与这些实体相关的关系类型,例如工作、促成、经验等。 Ace2005数据集中的文本样本都经过了人工标注,包括了实体标注和关系标注。这使得数据集成为了进行自然语言处理中命名实体识别和关系抽取任务的有力工具。 由于Ace2005数据集的数据量较大,且涵盖了多种实体类型和关系类型,因此它成为了自然语言处理中广泛使用的一个标准数据集,帮助许多研究人员实现了在命名实体识别和关系抽取等任务上的重要突破。 ### 回答2: Ace2005数据集是一个公开的英文文本数据集,主要用于信息抽取任务。该数据集由美国国土安全部人员手动标注,包含了440篇新闻文章和5472个实体,超过33000个关系。这些实体包括人名、地名、组织机构名、时间等,而关系则包括人物关系、机构关系、时间关系等。 Ace2005数据集的目的是推动自然语言处理领域中的信息抽取研究和开发,帮助研究人员和企业开发能够自动抽取结构化信息的算法和系统。因为该数据集包含了大量的实体和关系,有丰富的多样性,在自然语言处理领域中受到了广泛的研究和关注。 使用Ace2005数据集进行信息抽取任务的研究主要集中在命名实体识别、关系抽取事件识别等方面。利用该数据集,可以训练出相应的模型来自动地从文本中提取实体和关系信息,并将其转化为结构化数据,以便于进行后续的分析和挖掘。 总之,Ace2005数据集是一个经典的用于信息抽取任务的数据集,对自然语言处理领域的研究和开发起到了重要的推动作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值