4-5知识抽取-事件识别与抽取
知识图谱领域事件的定义:事件是发生在某个特定时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或多个动作组成的事情或者状态的改变。
事件抽取:
从无结构文本中自动抽取结构化事件知识:
什么人/组织;什么事件;在什么地方;做了什么事情
事件抽取步骤:
1、事件发现和分类
2、事件要素的抽取
事件发现和分类:
1.识别触发词:体现发生事件的核心词语。
2.分类事件类型:比如离职事件。
事件要素抽取:
1.识别事件要素:参与事件的实体。
2.分类要素的角色:参与事件的实体在事件所扮演的角色。
事件抽取的方法:模式匹配
基于人工标注语料的模式匹配:
模版的产生完全基于人工标注语料,学习效果高度依赖与人工标注质量。
一般分为两个步骤:获取和匹配
以AutoSlog为例:
a.事件元素首次提及之处即可确定该元素与事件间的关系。
b.事件元素周围语句中包含了事件元素在事件中的角色描述。
基于弱监督的模式匹配:
人工标注耗时耗力,且存在一致性问题。
弱监督方法不需要对语料进行完全标注。
基于AI的抽取方法:
基于特征、基于结构和基于神经网络
基于特征的方法-机器学习:
如何提取具有细分性的特征:
词性;实体类型;依存树;N元组等等。
基于结构的方法:
Joint Inference将各模型通过整体优化目标整合起来,通过整数规划等方法进行优化。
Joint Model将事件结构看作依存树,抽取任务相应转化为依存树结构预测问题。
基于神经网络的事件抽取模型:
DMCNN
中文事件抽取:
不同的分词策略;中文词汇特征;形态时态没有明显的变化。
DuEE