先推荐一篇博士论文:
【中文事件抽取关键技术研究-谭红叶】
以下大部分内容都是从这篇博士论文中整理出来的。
在MUC评测会议上,信息抽取定义包括:
- 命名实体的识别(Named entities,NE)
- 命名实体关系的抽取(Template relation,TR)
- 指定事件及其主要论元角色的抽取 (Scenario template ,ST)
- 模板元素的填充(Template element,TE)
- 共指关系的确定(conference)
在ACE评测会议上,信息抽取定义定义的抽取是在单个文档内部进行(Document level IE),不受其他文档的影响,不属于跨文档的信息抽取(Across document IE)。包括:
- 实体的检测和识别(Entity detection and recognition, EDR)
- 关系的检测和识别(Relation detection and recognition, RDR)
- 事件的检测与识别(Event detection and recognition, VDR)
- 值 的 检 测 和 识 别 (Value detection and Recognition, VAL)
- 时间的检测和识别(Time detection and recognition)
由此可见,信息抽取的核心应该是命名实体识别+关系抽取+事件抽取。
事件的检测与识别主要指特定类型事件的检测和相关信息的识别。相关的信息主要包括:
- 属性信息
- 论元角色
- 文中描述事件的句子或片段
事件抽取涉及到的核心任务是:事件mention的识别、事件属性的确定和论元角色的识别。
即主要包括事件的检测与分类(又称事件识别)、事件论元角色抽取(又称事件元素识别)两个阶段。
ACE评测会议将事件分为8 个大类和 33 个子类,分别为:
- Justice :Acquit无罪、Appeal呼吁、Arrest-Jail拘捕入狱、Charge-Indict案件起诉、Convict宣判有罪、Execute处死、Extradite引渡、Fine罚款、Pardon赦免、Release-Parole假释、Sentence宣判、Sue控告、Trial-Hearing审判/听证。
- Conflict冲突:Attack攻击、Demonstrate示威
- Contact联系:Meet见面、Phone-Write电话写信
- Life生活:Be-Born出生、Die死亡、Divorce离婚、Injure受伤、Marry结婚。
- Movement:Transport运输。
- Business:Declare-Bankruptcy宣告破产、End-Org、Merge-Org企业并购、Start-Org创办企业。
- Personnel人事:Elect选举、End-Position最终职位、Nominate任命、Start-Position实习职位。
- Transaction交易:Transfer-Money转账、Transfer-Ownership过户。