目前,知识图谱在学术界如火如荼地进行,但受限于知识图谱各个环节中的性能问题,还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点,实体关系为实体关系边对知识进行组织不同,以事件作为节点,事件关系作为节点关联的三元组信息的抽取和应用,当前也是大家在探索的一个方向(即事理图谱,先撇开其建模和应用现状不讲)。
笔者之前围绕事件关系三元组抽取,结合语言学背景,尝试了一些朴素方式下的事件关系三元组、事件主谓宾三元组抽取的工作。如:
顺承事件关系三元组抽取,地址:
https://github.com/liuhuanyong/SequentialEventExtration
因果事件关系三元组抽取,地址:
https://github.com/liuhuanyong/CausalityEventExtraction
复合事件关系三元组抽取,地址:
https://github.com/liuhuanyong/ComplexEventExtraction
事件主谓宾三元组抽取,地址:
https://github.com/liuhuanyong/EventTriplesExtraction
本文选择复合事件关系三元组抽取和事件主谓宾三元组抽取两个实践项目进行介绍。前者的输出可以作为后者的输入,通过识别出事件关系的两头事件实体,再通过主谓宾关系抽取,可以进一步得到事件的主体和客体,主体和客体可以进一步成为事件实体链接的桥梁,以实现与实体知识的联合建模。
一、ComplexEventExtraction复合事件关系三元组抽取
chinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事件关系三元组。
1、复合事件关系中事件的界定
如果要做事件关系三元组抽取,那么就务必要回答其中的事件形态是什么,其边界在哪儿。基于框架体系FrameNet那套的ACE将事件表示成为一个个论元集合,CEC事件数据集、SemEval等数据集中将事件界定为一个动词。不同的事件界定方式,直接决定了后续技术的选择以及对应的技术难度下图总结了当前遇到的几种工业界事件表示方式:
以因果事件为例, 已知句子:这几天非洲闹猪瘟,导致国内猪肉涨价。
图1-复合事件关系的