说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。
课程目标
- 了解以知识图谱为代表的大数据知识工程的基本问题和方法
- 掌握基于知识图谱的语义计算关键技术
- 具备建立小型知识图谱并据此进行数据分析应用的能力
教学安排
详情请见博客:CAS-KG——课程安排
文章目录
1. 任务概述
事件与事件抽取的定义
背景
事件抽取是信息抽取中的难点问题
- 事件抽取依赖实体抽取和关系抽取
- 相较于实体抽取和关系抽取,事件抽取难度更大
例:1992 年10 月3 日,奥巴马与米歇尔在三一联合基督教堂结婚
- 实体抽取:
1992年10月3日, 奥巴马,米歇尔,三一联合基督教堂 - 关系抽取:
夫妻关系:奥巴马,米歇尔 - 事件抽取:
事件类型:结婚事件,配偶:奥巴马,配偶:米歇尔,时间: 1992年10月3日,地点:三一联合基督教堂
信息抽取中对事件的定义
事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
- 不同的动作或者状态的改变代表不同类型的事件
- 同一个类型的事件中不同的时间、不同的地点、不同的元素代表了不同的事件实例
事件抽取任务
从自然语言文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来,如什么人,什么时间,在什么地方,做了什么事。
相关术语
- 事件描述(Event mention),事件触发词(Event Trigger),事件元素(Event argument),元素角色(Argument role)
事件抽取相关的评测与语料
事件抽取研究的维度
- 事件类别是否预定义
限定类别事件抽取
开放式事件抽取 - 抽取的方法
基于模式匹配的事件抽取方法
基于机器学习的事件抽取方法 - 文本粒度
句子级事件抽取
篇章级事件抽取 - 文本类型
新闻、微博、论坛 - 领域、实时、多媒体….
2. 限定域事件抽取
基于模式匹配的方法
- 方法描述:在一些模式的指导下,通过模式匹配对某种类型事件进行识别和要素抽取
- 平面模式:主要基于词袋等字符串特征构成模式
- 结构模式:更多地考虑了句子结构信息,融入句法特征
- 缺点:
领域相关,可扩展性差
需要大量人工标注,耗时耗力
有监督的模式匹配方法
- 方法描述:事件模式是从人工标注的语料中获取的。
- 代表性系统:AutoSlog
Ellen 等通过观察MUC-4 测评会议的语料发现:“事件的大部分角色
可以在某个短语的上下文中找到”,并据此作为系统开发出发点。
模板示例:
弱监督的模式匹配方法
- 方法描述:不需要对语料进行完全标注,而只需要人工对语料进行一定的预分类或者制定少量种子模式,由机器根据预分类语料或者种子模式自动学习事件模式。
- 代表性系统:AutoSlog-TS
AutoSlog 系统需要对每句话以及句子中的相应实体进行标注。
AutoSlog-TS 只需要标注句子是否包含了对应的事件即可,然后根据预分类数据自动学习抽取事件的模式,进而完成事件抽取的任务。
基于机器学习的方法
- 方法描述:将事件实例转换成高维空间中的特征向量或直接用离散结构来表示,在标注语料库上训练生成模型,然后再识别事件及其元素。
基于特征向量的分类方法
- 主要问题:如何获取各种有效的词法、句法、语义等特征,并把它们有效地集成起来,从而产生“词语触发事件”以及“候选事件元素扮演事件角色”的各种局部特征和简单全局特征。
- 基于句子级信息的方法: 从句子中提取特征,利用最大熵、朴素贝叶斯或支持向量机等分类模型进行事件抽取(Ralph Grishman 2005, Ahn 2006)
- 融入篇章和背景信息的方法: 在句子级信息基础上更多地考虑篇章级信息和丰富的背景知识(跨文档信息、跨语言信息、跨文本事件信息、跨实体信息)(Liao 2010, Hong 2011等)
基于结构预测的方法
- 主要问题:将事件抽取看作一个结构预测的问题。如何建模事件的结构并有效地挖掘反映事件的结构化信息及特征是关键问题。
- 建模为依存树结构的预测问题:生物事件(McClosky et al. 2011)
- 建模为自定义联合结构的预测问题:触发词和事件元素联合预测(Li et al.2013,Li et al. 2014)
基于神经网络的方法
- 主要问题:如何设计合理的网络结构,从而捕捉更多的信息,进而更准确地进行事件抽取。
- 网络结构:不同的网络结构捕捉文本中不同的信息
卷积神经网络(CNN):(Chen et al. 2015, Nguyen et al. 2015,
Chen et al.2017)
循环神经网络(RNN):(Chen el.2018, Feng et al. 2016, Nguyen et al. 2016 )
多层感知机(MLN):(Liu et al. 2016, Liu et al.2017)
基于特征向量的方法
句子级特征(传统特征+多分类器)
句子级特征+实体类型
基于结构预测的方法
传统方法存在两方面问题:
- 将事件抽取分成多个步骤,错误自上而下传递
- 没有考虑触发词和事件元素之间的相互影响
动机:同时考虑事件元素和事件触发词的标注可以提升最终效果。
基于神经网络的方法
基于动态最大池化技术的卷积神经网络
动机
基于有监督关注机制的多层感知机模型
基于实体知识蒸馏和对抗训练的事件识别
基于神经网络的方法:训练语料的问题
融合FrameNet的事件识别方法
基于世界知识和语言学知识的事件语料大规模自动生成方法
基于双语门控注意力机制的事件识别
多事件协同抽取
基于注意力图信息集成的多事件联合抽取
篇章级金融事件抽取
3. 开放域事件抽取
基于内容特征的事件抽取方法
基于异常检测的事件抽取方法
事件框架学习:基于模板的事件抽取系统
事件框架学习:大规模语料中生成事件框架
4. 事件关系抽取
共指关系
因果关系
时序关系
子事件关系
事件共指消解联合学习模型
社交媒体上的因果解释分析
加事件关系:无监督学习叙事事件链粗样式
子事件预测
5. 事件抽取与事件图谱的相关应用
事件抽取与事件图谱的应用:通用领域
事件抽取与事件图谱的应用:特定领域
生成故事大纲
预测新事件