引言
传统的实体知识图谱Knowledge Graph(KG)以实体为中心,关注名词性的实体及其关系,其描述的知识是静态的、确定性的事实,更聚焦于实体查询、知识问答、实体预测、实体画像等业务。但是,在舆情监测和文本分析、预测与推理,尤其是在情报分析场景中在诸如“怎么了”,“怎么办”,“为什么”等一些涉及推理和思考的问题上,传统的实体知识图谱显得有些乏力。
世界上存在着大量的事件信息,传递着动态的程序性知识。因此,以事件为中心的知识表示形式也很重要,它将实体和事件结合在一起,它促进了许多下游应用:事件预测,常识推理,消费意图挖掘,对话生成等。
实体知识图谱和事件(事理)知识图谱(Event Knowledge Graph (EKG)),都属于知识图谱,其不同点在于实体的规范性表达、本体模型的定义、知识的描述等。其构建流程都基于下图,本文以此为基准,着重阐述事件知识图谱中涉及的概念和关键技术。
图1 知识图谱的基本构建流程
01 事件知识图谱关键概念和技术
1.1 关键概念
事件知识图谱根据本体节点和关系的规范不同有不同的表现形式,比如:事件演化图谱EEG(event eventionary graph)、抽象事理图谱ELG(event logic graph)等。本文涉及的是广义上的事件(事理)知识图谱。
事件是什么,不同的领域和学科有着不同的定义。在知识图谱中的本体领域,事件则是在指在某个特定时间和环境下发生的由若干角色参与并表现出若干动作特征的一类事情。一个事件应该其特有的触发词(用于事件识别和抽取)和事件元素。触发词是能够触动事件发生的词,是决定事件类型的最重要特征,触发词可能有多级多个,比如针对黑客攻击事件的一级触发词有:攻击、攻入等;二级触发词:篡改、劫持、访问、注入等,这些触发词可用于事件的识别。事件元素(也称为事件论元)是指该类型事件涉及的元素,黑客攻击事件涉及的元素有:攻击的组织、被攻击的组织,攻击使用的技术、攻击的系统、软件、组件、版本、时间、地点等信息。
事件知识图谱以事件为中心,有两种类型的节点:事件节点和实体节点;三种有向边:即事件-事件关系(其包括事件之间的各种关系,如时序关系、条件关系、因果关系、子事件关系等)、事件-实体关系(这种关系表示事件的论元(元素),某个类型事件包含了哪些元素)、实体-实体关系(类似于实体知识图谱中的关系,比如某个组件从属于某个软件)。EKG是更精准的知识图谱的定义,实体知识图