事件抽取--论元

介绍NLP中有关事件论元的相关内容

ps:博主也是刚刚起步,很多内容一知半解,如有错误内容或者模糊概念,后期学习发现过程中会及时改正


事件论元(event argument)是作为事件抽取(event extraction)任务下的一个子任务。而事件抽取是属于IE(information extraction)的子任务。
对于IE技术来说,它是从非结构化的文本中抽取信息,用于结构化的存储。互联网就相当于一个超大的文本信息库,里面存放了各种各样的信息,如果我们能把这些散乱的,形式各异的文档信息抽取出来,并用标准的结构化形式存储,那意义是相当大的。
事件抽取就是把事件信息从非结构化的文本中抽取出来,并以结构化的形式呈现出来。事件抽取一般包括对触发词(event trigger)的抽取和对论元(event argument)的的抽取。通过触发词,我们来定义某个事件的类型,在ACE中大概定义了7个大的事件类型和30个事件子类型(subtype),而在TAC中定义了8个大的事件类型和15个事件子类型(subtype)。每种事件类型下会有相应的角色(role),事件论元的抽取就是从文本中找到相关的role,将其标准化后进行填充。
事件抽取常用的方法有:
1、模式匹配方法
2、机器学习方法
接下来来简单介绍一下这两种方法。

[https://kiseliu.github.io/2016/10/12/%E4%BA%8B%E4%BB%B6%E6%8A%BD%E5%8F%96/]

模式匹配方法
模式匹配方法是指对于某种类型事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将带抽取的事件和已知的模式进行匹配。模式匹配方法由两个基本步骤组成:模式获取和事件抽取。基于模式匹配的事件抽取方法大致流程图如下:

事件抽取的模式匹配方法

机器学习方法
机器学习方法其实就是一种分类方法,它是建立在统计模型的方法上,将事件类型与事件元的识别转换成分类问题。这种方法主要是选择合适的特征值与分类器来完成相关的分类。
由于近几年来机器学习的兴起以及模式匹配方法扩展性差,具有领域性问题,可移植性查。机器学习根据抽取模型中所采用的不同激励源,现有的方法主要分为三大类:

①事件元素激励: 2002 Hai Leong Chieu Hwee Tou Ng 首次引人最大熵分类器,用于事件元素
的识别。该方法实现了 个领域中的抽取任务,分别是半结构化的讲座通告( seminar announcement) 和自由文本的人事管理 (management succession) 0 2010 年,哈尔滨工业大学的宋凡等人[剖]研究了基于模式匹配与最大熵相结合的事件元素识别,实现了音乐领域中的事件抽取任务。该方法存在着一定的局限性,因为文本中存在着很多非事件元素的词,所以构建分类器时将引人太多
的反例,导致正反例严重不平衡,影响抽取的效果。
③事件实例激励: 厦门大学的许红磊等构建了一种基于事件实例激励的抽取模型,充分利用事件和非事件实例的有代表性的特征,构造二元分类器过滤掉非事件的句子,然后来用多知识融合的方法表示候选的事件实例,利用支持向量机采用多元分类的方法自动识别候选事件实例所属的事件类别,实现事仲基于模式匹配的事件抽取基本框图许旭阳等:事件抽取技术的回顾与展望抽取任务。爱尔兰都伯林大学的 Martina 将文本中每一个句子都看成候选事件的实例,将事件抽取任务转化成对句子的聚类问题。
②触发词激励 :2006 David Ahn结合 MegaM Timbl 两种方法分别实现了事件抽取中事件类和元素的识别。在 Ahn 的方法中,最重要的一个步骤就是判断句子中的每个词是否是最能描述某个事件发生的触发词,如果是,则将其归为正例,并用一个多类分类器对其进行分类,获得其所属的事件类别,从而得出其所含的事件元素类型,用于构建识别每一类事件元素的分类器。之后的几年时间里,这方面研究开展的如火如荼,如 Grishman 、赵如如 、张先飞等提出的事件抽取方法也均属于触发词激励的范畴。
此类方法是目前比较主流的事件抽取方法,将每个词作为一个实例进行训练,然后判断是否为触发词,但同样引入了大量的反例,导致正反例严重不平衡;并且,事件类别的多元分类以及为每类事件元素单独构造多元分类器时在语料规模较小的时候存在着一定的数据稀疏问题。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值