Raki的读paper小记:An Effective Transition-based Model for Discontinuous NER

82 篇文章 10 订阅

Abstract & Introduction & Related Work

  • 研究任务
    不连续NER

  • 已有方法和相关工作

    1. mention不嵌套或重叠,因此每个标记最多属于一个mention
    2. mention由连续的标记序列组成。嵌套实体识别解决了违反第一个假设的问题。
  • 面临挑战

    1. 需要处理不连续的mentions
    2. 识别不连续的mention尤其具有挑战性,因为穷举可能的mention,包括不连续的和重叠的跨度,在句子长度上是指数级的
    3. 现有的方法在将中间表征翻译成mention时存在模糊性。
    4. 依赖手工设计的特征
    5. 在这里插入图片描述
  • 创新思路
    使用专门的行为和注意力机制来确定一个span是否不连续mention的组成部分

  • 实验结论
    我们在三个具有大量不连续提及的生物医学数据集上评估了我们的模型,并证明我们的模型能够有效地识别不连续mention而不牺牲连续mention的准确性。

Model

给出解析器的状态,预测一个动作,应用该动作来改变解析器的状态。这个过程重复进行,直到解析器达到结束状态(即堆栈和缓冲器都是空的)
在这里插入图片描述
在这里插入图片描述
一切尽在图中
在这里插入图片描述

Representation of the Parser State

首先润BiLSTM得到上下文表示,每个token的embedding用char CNN得到
在这里插入图片描述
再跟ELMo拼接起来,其中 E L M o i ELMo_i ELMoi 是预训练的 E L M o ELMo ELMo 模型的输出表示(冻结),用于第i个标记。这些标记表征c直接用于表示缓冲区中的标记。
在这里插入图片描述
BERT也用了,但是效果没有ELMo好

每当用到REDUCE的时候,就丢到一个fc层里面,得到的新表示代替原来的两个span
在这里插入图片描述
当stack里面的span需要与buffer里面的span结合的时候,使用一个乘法注意力机制,并且每个W是每个s独有的
在这里插入图片描述

Selecting an Action

最终我们用栈最上面三个span和它们注意的表示的拼接来建立一个解析表示,如同之前的a的表示,用一个简单的双向LSTM来学习,如果堆栈中的跨度少于3个或没有以前的动作,我们使用随机初始化的向量 s e m p t y s_{empty} sempty a e m p t y a_{empty} aempty 来替换相应的向量。这个解析器表示被用作最后的softmax预测层的输入,以选择下一个动作

Data sets

在这里插入图片描述

Experimental Results

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Summary

我们提出了一个简单有效的基于过渡的模型,可以在不牺牲连续mention的准确性的情况下识别不连续的mention。我们在三个具有大量不连续mention的生物医学数据集上评估了我们的模型。与现有的两个不连续的NER模型相比较,我们的模型更加有效,尤其是在召回率方面

Remark

这个跟stack结合到一起的模型属于是让我耳目一新,novelty很足(虽然是站在巨人的肩膀上而不是他首创),而且也能work,问题大小呢可能小一点,但是也让我见到了一种新的NER task,是篇好paper

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值