论文笔记:Exploring Pre-trained Language Models for Event Extraction and Generation


作者:陈宇飞

单位:燕山大学


论文地址:https://www.aclweb.org/anthology/P19-1522/


一、摘要

  传统的事件抽取(EE)任务目前有两个主要问题,一是事件抽取本身的困难,还有就是不足的训练数据阻碍了学习过程。所以,本文的主要工作分为两部分,首先是提出了一个事件提取模型PLMEE,来解决角色重叠问题,然后还提出一种通过编辑原型自动生成标记数据的方法。

二、引言

  在一个句子中一个元素可能扮演两个或者多个角色,这就是角色重叠问题。例如,”The explosion killed the bomber and three shoppers”,killed会触发Attack事件,而论元“bomber”会同时扮演袭击者和受害者两个角色,这就出现了角色重叠问题。而在现今的研究中,很少有人注意到这一点,绝大多数现有的模型,在进行分类时如果成功预测出了元素对应了多个角色中的一个,就认为分类正确。所以本文提出了一种有效的机制来解决这个问题。
  另一个问题是现有的事件抽取任务都是通过大量的有标注的数据来进行有监督学习的,在本文中提出使用预训练模型,试图利用从大规模语料库中学习到的知识来生成事件。本文提出的基于预训练模型的框架,包括一个事件抽取模型作为框架的基线和一个标记事件的生成方法。其中事件抽取模型由一个触发词抽取模型和一个元素抽取模型组成,元素抽取模型引用触发词抽取模型的结果进行推理。此外,根据角色的重要性重新加权损失函数来提高元素抽取模型的性能。

三、相关工作

  事件抽取现在主要分成两类:句子级和文档级的。本文主要研究句子级的事件抽取。句子级可以细分为基于特征的和基于神经网络的。
  事件生成通常使用Freebase、Frame-Net、WordNet等外部资源生成事件,丰富训练数据。此外还有基于一个强大的远距离监督假设来标注无监督语料库中的事件,这种强假设规定若两个实体在外部知识库中存在某种关系,则认为所有提及这两个实体的句子,句子中的这两个实体也存在这种关系。基于这种强假设,在无监督的语料上进行事件的标注。但实际上共现的实体不一定就会有这种关系。
  现在流行的预训练模型:ELMO、LSTM、GPT、BERT。

四、模型

模型分为两部分:(1)触发词抽取模型;(2)元素抽取模型。

在这里插入图片描述

4.1 触发词抽取模型

  在Bert预训练模型的基础上添加一个多分类器。模型的输入是Bert的三种原始输入类型。在大多数情况下,触发词是短语,所以本文将共享相同预测标签的连续令牌视为一个完整的触发词。使用交叉熵损失函数用于微调。

4.2 元素抽取模型

  元素抽取所面临的三大问题:元素对触发词的依赖性、元素多为长名词短语、角色重叠问题。为了解决后两个问题,本文在Bert上加了多组二元分类器,每组分类器为一个角色提供服务,以确定扮演它的所有元素的span(每个跨度包括开始和结束)。由于预测与角色分离,一个元素可以扮演多个角色,一个标记可以属于不同的元素。因此,角色重叠问题也可以得到解决。

4.3 元素跨度的确定

在PLMEE模型中,一个token t 被预测为角色r的元素的start的概率为:

在这里插入图片描述

在PLMEE模型中,一个token t 被预测为角色r的元素的end的概率为:

在这里插入图片描述

其中 W W W是各个分类器的权重,权重不共享, B B

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值