第七章 事件抽取
任务概述
事件:是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变
事件抽取:主要研究如何从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来
几个有关与事件抽取相关的概念:
- 事件指称:是指对一个客观发生的具体事件进行的自然语言形式的描述,通常是一个句子或者句群
- 事件触发词:是指一个事件指称中最能代表事件发生的词,是决定事件类别的重要特征
- 事件元素:是指事件中的参与者,是组成事件的核心部分,与事件触发词构成了事件的整个框架
- 元素角色:是指事件元素与事件之间的语义关系,即事件元素在相应的事件中扮演什么角色
- 事件类别:事件元素和触发词决定了事件的类别
评测会议
- MUC
- TDT
包括五个子任务:
(1)新闻报道切分
(2)新事件识别
(3)报道关系识别
(4)话题识别
(5)话题跟踪 - ACE
定义了8大类 33类小类事件
研究主要集中在:①有效特征的挖掘 ②抽取模型的改进 ③减少对标注语料的依赖
事件类型 | 子事件类型 |
---|---|
生命 (life) | 出生(be-born)、结婚(marry)、离婚(divorce)、伤害(injure)、死亡(die) |
移动(movement) | 运输(transport) |
联系(contact) | 会面(meet)、打电话/写信(phone-mail) |
冲突(conflict) | 袭击(attack)、游行(demonstrate) |
商务(business) | 机构合并(merge-org)、破产声明(declare-bankruptcy)、机构成立(start-org)、机构终止(end-org) |
交易(transaction) | 金钱转移(transfer-money)、所有权转移(transfer-ownership) |
人事(pers |