事件抽取与事理图谱(一)

在这里插入图片描述
事件抽取是信息抽取研究中最具挑战性的任务之一,其主要研究如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来。
一些信息抽取领域的国际评测会议针对事件抽取提出了一系列的理论,并推出了一些实用的系统框架:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
事件,作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。
组成事件的各元素包括:
在这里插入图片描述
在这里插入图片描述
例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

在这里插入图片描述
在这里插入图片描述
根据上述定义,事件抽取任务可以分成两个子任务,分别是:
事件触发词及类型的识别(基于单词的多分类任务)
事件元素的识别(基于词对的多分类任务,是一种角色关系识别)

例如,对文本“Intel在中国成立了研究中心”进行事件抽取:
第一步应该将“成立”识别成触发词,其触发了一个“成立机构”类型的事件;
第二步应该将“Intel”、“中国”和“研究中心”识别成事件元素,其角色分别为“设立方”、“地点”和“被成立机构”
在这里插入图片描述
在这里插入图片描述
表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。
在这里插入图片描述
包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。
当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

在这里插入图片描述

模式匹配
模式匹配在特定领域内能取得较高的性能,但移植性较差。
机器学习
无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。
机器学习已成为元事件抽取的主流研究方法。
将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。
在这里插入图片描述
2000 年以来, 对中文进行事件抽取研究主要以基于模式匹配的事件抽取算法和触发词法为主。算法使用频率统计如下:
在这里插入图片描述
实际上, 为了提高事件抽取的效果, 实际应用中存在将两个或两个以上的算法进行组合应用, 即首先使用某算法 ( 如先使用模式匹配法过滤非事件句后再用 SVM 法识别事件句, 使用 KNN 算法提取触发词再用触发词法抽取事件) 进行处理, 再使用其他算法进一步处理以提高事件抽取的准确度。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Context-word feature(CWF):将一个句子中的所有词作为上下文,CWF是一个所有字标记都被转换为词嵌入向量。
Position feature(PF): PF被定义为当前词语与预测trigger以及候选argument之间的相对距离。相对距离有两个,一个是对于trigger,一个对于候选argument。
Event-type feature(EF):当前trigger的事件类型对于argument classification也是具有价值的。所以对在trigger classification过程中预测的事件类型进行编码,也做为DMCNN的一个重要线索,编码方式与PF相同。
在这里插入图片描述
在这里插入图片描述
识别出事件中的触发词和要素后,相当于识别出了事件语义图中孤立的节点和边,需要按照事件的约束进行组合形成事件。
识别出的节点和要素边可能有不合法的,在组合时需要去掉这些无效的节点和边。
事件后处理方法主要包括基于规则的后处理方法和基于统计机器学习的方法。
在这里插入图片描述
在这里插入图片描述
近来,针对事件抽取的工作大都集中在预测事件的 triggers 和 arguments roles,而把实体识别当作是已经由专家标注好了的,然而实际情况是实体识别通常是由现有工具包预测出来的,而这将会导致实体类型预测产生的错误传播到后续任务中而无法被纠正。
因而,本文提出一种基于共享的 feature representation,从而预测实体类型,triggers,argumentsroles 的联合模型。实验表明我们的方法做到了 state-of-the-art。
该模型由三个核心部分组成,分别是实体类型预测(Entity MentionDetection - EMD)、事件类型预测(Event Detection - ED)和语义角色类型预测(Argument RolePrediction - ARP)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

©️2020 CSDN 皮肤主题: 1024 设计师:上身试试 返回首页