事件抽取的简单方法
再构建event graph, 不免要用到event extraction的方法,这里引用了一篇别人的总结作为参考学习
https://www.cnblogs.com/cyandn/p/10915394.html
关系抽取
定义:自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。
通过关注两个实体间的语义关系,可以得到(arg1, relation, arg2)三元组,其中arg1和arg2表示两个实体,relation表示实体间的语义关系。
根据处理数据源的不同,关系抽取可以分为以下三种:
- 面向结构化文本的关系抽取:包括表格文档、XML文档、数据库数据等
- 面向非结构化文本的关系抽取:纯文本
- 面向半结构化文本的关系抽取:介于结构化和非结构化之间
根据抽取文本的范围不同,关系抽取可以分为以下两种:
- 句子级关系抽取:从一个句子中判别两个实体间是何种语义关系
- 语料(篇章)级关系抽取:不限定两个目标实体所出现的上下文
根据所抽取领域的划分,关系抽取又可以分为以下两种:
- 限定域关系抽取:在一个或者多个限定的领域内对实体间的语义关系进行抽取,限定关系的类别,可看成是一个文本分类任务
- 开放域关系抽取:不限定关系的类别
限定域关系抽取方法:
- 基于模板的关系抽取方法:通过人工编辑或者学习得到的模板对文本中的实体关系进行抽取和判别,受限于模板的质量和覆盖度,可扩张性不强
- 基于机器学习的关系抽取方法:将关系抽取看成是一个分类问题
其中基于机器学习的关系抽取方法又可分为 有监督 和 弱监督。
有监督的关系抽取方法:
- 基于特征工程的方法:需要显示地将关系实例转换成分类器可以接受的特征向量
- 基于核函数的方法:直接以结构树为处理对象,在计算关系之间距离的时候不再使用特征向量的内积而是用核函数
- 基于神经网络的方法:直接从输入的文本中自动学习有效的特征表示,端到端
弱监督的关系抽取方法:不需要人工标注大量数据。
距离监督:用开放知识图谱自动标注训练样本,不需要人工逐一标注,属弱监督关系抽取的一种。
开放域关系抽取方法:
不需要预先定义关系类别,使用实体对上下文中的一些词语来描述实体之间的关系。
总结:
限定域关系抽取是目前研究的主流方向。
传统的基于模板的关系抽取方法可扩展性差,基于机器学习的关系抽取方法是目前研究的热点。
基于有监督学习的关系抽取需要人工标注大量训练数据,耗时费力,基于弱监督学习的关系抽取得到了越来越多的关注。
事件抽取
定义:从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来。
步骤:首先识别出事件及其类型,其次要识别出事件所涉及的元素(一般是实体),最后需要确定每个元素在事件中所扮演的角色。
事件抽取相关概念:
- 事件指称:对一个客观发生的具体事件进行的自然语言形式的描述,通常是一个句子或句群
- 事件触发词:指一个事件指称中最能代表事件发生的词,是决定事件类别的重要特征,一般是动词或名词
- 事件元素:事件中的参与者,主要由实体、时间和属性值组成
- 元素角色:事件元素在相应的事件中扮演什么角色
- 事件类别:事件元素和触发词决定了事件的类别(类别又定义了若干子类别)
限定域事件抽取:在进行抽取之前,预先定义好目标事件的类型及每种类型的具体结构(包含哪些具体的事件元素),通常会给出一定数量的标注数据。
限定域事件抽取方法:
- 基于模式匹配的方法:对某种类型事件的识别和抽取是在一些模式的指导下进行的(步骤:模式获取、模式匹配)
- 有监督的事件模式匹配:模式的获取完全基于人工标注的语料
- 弱监督的事件模式匹配:不需要对语料进行完全标注,只需要人工对语料进行一定的预分类或者制定少量种子模式
- 基于机器学习的方法
- 有监督事件抽取方法:将事件抽取建模成一个多分类问题
- 基于特征工程的方法:需要显示地将事件实例转换成分类器可以接受的特征向量,研究重点在于怎样提取具有区分性的特征
- 基于神经网络的方法:自动从文本中获取特征进而完成事件抽取,避免使用传统自然语言处理工具带来的误差累积问题
- 弱监督事件抽取方法:不需要人工大量标注样本,但需要给出具有规范语义标签(事件类别、角色名称等)的标注训练数据
- 基于Bootstrapping的事件抽取:利用少部分人工标注的数据自动生成大规模标注数据(高置信度抽取结果会作为训练样本,然后再训练,不断迭代)
- 基于Distant Supervison的事件抽取:完全自动生成事件标注样本,利用结构化的事件知识库直接在非结构化文本中回标训练样本
- 有监督事件抽取方法:将事件抽取建模成一个多分类问题
开放域事件抽取:在进行事件识别之前,可能的事件类型以及事件的结构都是未知的,因此该任务通常没有标注数据,主要基于无监督的方法和分布假设理论。
分布假设理论:如果候选事件触发词或者候选事件元素具有相似的语境,那么这些候选事件触发词倾向于触发相同类型的事件,相应的候选事件元素倾向于扮演相同的事件元素。
开放域事件抽取方法:
- 基于内容特征的事件抽取方法
- 基于异常检测的事件抽取方法
事件关系抽取,以事件为基本语义单元,实现事件逻辑关系的深层检测和抽取,包括:
- 事件共指关系抽取
- 事件因果关系抽取
- 子事件关系抽取
- 事件时序关系抽取
总结:
组织和构建同时包含实体、实体关系、事件、事件关系的事件知识图谱得到了越来越多的关注。