Raki的读paper小记:A Unified MRC Framework for Named Entity Recognition

82 篇文章 10 订阅

Abstract & Introduction & Related Work

  • 研究任务
    flat 和 nested NER tasks

  • 已有方法和相关工作

    1. 序列标注模型,以CRF为骨干
    2. 解析树,他们做了一个假设,即当一个mention与另一个mention重叠时,它们完全被另一个mention所包含
    3. mention hyper-graphs,用神经网络来学习超图表示
    4. 以分层的方式动态地堆叠平面NER层
    5. 通过对嵌套实体mention的头部驱动的短语结构进行建模和利用,形成锚点-区域网络(ARNs)架构
    6. 通过选择置信度最高的的实体跨度并将这些节点与信心加权的关系类型和核心关系联系起来,建立了一个跨度列举方法
    7. 基于BERT的模型,它首先将标记和/或实体合并成实体,然后给这些实体分配标签。
    8. 推理模型,从最外层的实体到内层的实体进行反复提取
    9. 将嵌套式NER视为一个序列-序列生成问题,其中输入序列是一个标记列表,目标序列是一个标签列表。
  • 面临挑战
    在嵌套NER任务中,无法很好的处理实体重叠的问题

  • 创新思路
    把NER任务转化成机器阅读理解任务

  • 实验结论
    在这里插入图片描述

Method

Query Generation

在本文中,将注释指南说明作为构建查询的参考。注释指南说明是由数据集建立者提供给数据集注释者的指南。它们是对标签类别的描述,这些描述尽可能地通用和精确,以便人类注释者可以在任何文本中对概念或提及的内容进行注释,而不会遇到歧义。
在这里插入图片描述

model

model backbone

使用bert作为backbone,将query concat到一起
在这里插入图片描述

span selection

每个token上有两个二元分类器,一个是预测每个标记是否是起始索引,另一个是预测每个标记是否是结束索引。

Start Index Prediction

鉴于BERT输出的表示矩阵E,模型首先预测每个标记是起始索引的概率,如下所示
在这里插入图片描述

End Index Prediction

跟start index的方法一模一样,用自己矩阵 P e n d P_{end} Pend

Start-End Matching

由于实体之间存在重叠,使用匹配最近两个开始和结束的方法并不work,所以需要一个方法将start和end匹配起来
在这里插入图片描述
上标代表矩阵中的一行,给出一个start index和一个end index,训练一个二元分类器判断是否匹配
在这里插入图片描述

Train and Test

算三个交叉熵:起点,终点,起点和终点
在这里插入图片描述
在这里插入图片描述
三个系数为超参数

Experiment

Results

在这里插入图片描述
在这里插入图片描述

Ablation studies

Improvement from MRC or from BERT

实验表明MRC模型对NER任务是有提升的
在这里插入图片描述
在这里插入图片描述

How to Construct Queries

如何构建查询对最终结果有重大影响,实验表明最优的方法是Annotation guideline notes(注释准则说明)
在这里插入图片描述
在这里插入图片描述

Zero-shot Evaluation on Unseen Labels

在这里插入图片描述

Size of Training Data

在这里插入图片描述

Conclusion

在本文中,将NER任务重新表述为MRC问题回答任务。这种形式化有两个关键优势。
(1)能够处理重叠或嵌套的实体;
(2)查询编码了关于要提取的实体类别的重要先验知识。
所提出的方法在 nested 和 flat NER数据集上都获得了SOTA结果

Remark

用阅读理解的方式做NER task,对于我这个没见过世面的小菜鸟来说确实是很novel的方法,然后效果也work,在那个时间点达到sota,但是之后的sota模型就直接碾压了它好几个点,再者不知道这个方法的效率如何,但是方法总体来说比较简单,idea新颖,总之个人觉得是篇好paper。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值