中文事件抽取研究综述
中文事件抽取研究综述
项威,王邦 ( 华中科技大学电子信息与通信学院,湖北武汉430074)
摘要
事件抽取是构建知识图谱的关键任务之一,也是当前自然语言处理的研究热点和难点问题。
事件抽取研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息,对人们认知世界有着深远的意义,在信息检索、智能问答、情感分析等应用场景有着重要的意义和价值。
在公开国际测评和语料的推动下,事件抽取研究受到越来越多的学者关注,取得了许多的研究成果。
-
按照事件抽取任务定义,有:
- 预先定义结构化的事件表示框架的框架表示事件抽取和
- 通过事件实例中触发词及事件元素进行聚类的实例表示事件抽取。
-
根据事件抽取方法的不同,可以分为:
- 基于模式匹配的方法
- 基于机器学习的方法
中文事件抽取方法还要考虑中文语言特性问题。
自动内容抽取国际评测会议 Automatic content extraction, ACE
将事件定义为:
发生在某个特定时间点或时间段,某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
- 早期的事件抽取任务采用基于模式匹配的方式,随着机器学习的兴起,采用特征工程和神经网络的方法进行事件抽取受到关注。
- 中文事件抽取还存在中文语言特性方面的问题
本文首先简要介绍了事件抽取的研究意义,再从事件抽取的任务定义和技术方法两个维度全面阐述事件抽取工作。
2 事件抽取任务定义
事件抽取在相关公开测评和语料的推动下展开,不同的公开测评和语料关注的领域和事件粒度不同。
- 框架表示事件抽取任务是参照公开测评事件抽取任务,也称为限定域事件抽取。
- 实例表示事件抽取是在没有预先定义结构化的事件表示框架下,通过事件实例的触发词和事件元素词用无监督方法聚类来进行的事件抽取任务,也称为开放域事件抽取
2.1 公开评测事件抽取
公开评测语料通常面向通用背景,没有特定的领域背景,如ACE仅仅对新闻语料中关注的33种常用事件类型进行了标注。
公开评测极大推动了事件抽取的研究和发展,但公开评测语料通常面向通用背景,没有特定的领域背景,如ACE仅对新闻语料中关注的33种常用事件类型进行了标注。
- 虽然有少量的特定领域事件抽取语料,如BioNLP生物医学领域语料等,但不能满足丰富多样的实际应用需求。同时公开评测语料还存在数据量级小、事件类型稀疏和语料时效性差等问题,目前最优性能也无法满足知识图谱构建等应用需求。
ACE认为事件是事物状态的改变或事情的发生,并将事件抽取任务定义为从非结构化的文本中识别并抽取事件信息并结构化表示,包括事件触发词、事件类型、事件元素、元素角色。
相关术语:
- 实体
entity
- 事件提及
event mention
:描述事件的短语 或 句子,包括事件触发词和事件元素。- 事件触发词
event trigger
- 事件元素
event arguments
- 元素角色
argument roles
ACE事件抽取任务通常分为:事件检测 & 元素识别
-
事件检测:通过识别文本中的事件触发词检测事件,并判断事件类型。
每种事件类型对应唯一的事件表示框架(如生活-出生类型事件表示框架为{人物,时间,地点})
-
元素识别:根据事件表示框架判断文本中的实体是否为事件元素,并确定元素角色
ACE语料没有指定具体的领域和场景,主要来自新闻语料,包括新闻专线、广播新闻等6个来源,同时包含英语、汉语、西班牙语三种语言,由美国宾夕法尼亚大学等语言数据联盟
linguistic data consortium, LDC
标注。ACE定义了8种类型和33种子类型事件及其对应的表示框架。
事件抽取任务往往依赖于文本的命名实体识别、共指消解、关系抽取等自然语言处理任务结果,但其并不是事件抽取任务本身所关注的。
ACE数据集同时对实体及其类型、关系、共指等内容进行了标注,在ACE事件抽取任务中通常直接使用实体标注内容。ACE事件抽取任务通常采用以下标准评估正确性:
评估
ACE事件抽取任务通常采用以下标准评估正确性:
- 如果一个事件触发词的位置偏移和事件类型与标注内容匹配,则正确识别该事件触发词
- 如果一个事件元素词的位置偏移和对应事件与标注内容匹配,则正确识别该事件元素
- 如果一个事件元素词的位置偏移、对应事件及元素角色与标注内容匹配,则正确识别并分类该事件元素
2.2 框架表示事件抽取
通过自顶向下的方式,预先定义事件表示框架,包括事件类等等,然后制作相应的标注语料数据进行事件抽取。
- Perroni等在2018年提出一种从新闻报道和社交媒体中抽取突发事件等框架表示,用于公共安全预警、政府组织决策支持等。文章定义了“洪水”、“风暴”、“火灾”等7种突发事件类型,并结合6何分析法(
5W1H: Who, What, Where, When, Why, How
)设计各类事件元素的表示框架。 - 刘振[7]等在2018年提出了常见科技政策领域内的事件类型与对应的事件表示框架,帮助获取科研