NER的三个标注框架

这篇文章主要来说说自己最近做ner任务时使用过的三个不同的标注框架,分别是序列标注、指针标注和阅读理解的标注形式。下面分别讲述三个标注体系框架。

序列标注

在ner任务中,序列标注是最为常见的标注体系,也是比较容易理解的标注体系,以Bi-lstm+CRF为例,就是一种序列标注体系,在另一篇博文中详细介绍了Bi-lstm+CRF的原理以及用法,详情参考:知识图谱之命名实体识别,这里就不再赘述了。

指针标注

废话不多说,直接上图,看图说故事。

在这里插入图片描述
在指针标注体系中,使用span模块代替了CRF模块,加快了训练速度,以半指针-半标注的结构预测实体的起始位置,同时标注过程中给出实体类别,简单点说,就是设置两个指针start和end,分别记录每一种实体的开始和结束的位置,并且在记录位置的同时,标注该实体的类别,如上图所示,”朝阳区“和**”小关北里“**表示两个实体,实体类别分别用3和8表示,最后输出层分别用start dense layer和end dense layer两个指针网络标注两个实体的起始位置和所属类别,最后的损失由两个指针网络的损失累加求和。

应用场景:指针网络擅长解决嵌套实体,举个例子:”呼吸中枢受累“,这是一个医学术语,呼吸中枢是表示部位的实体,呼吸中枢受累是表示症状的实体,典型的嵌套实体,如果用一般的序列标注的方法来提取,只能提取其中的一个实体,但是用层叠式指针标注就可以解决这一问题。

MRC标注体系

BERT-MRC模型是目前实体识别领域的一个SOTA模型,在数据量较小的情况下效果较其他模型要更好,原因是因为BERT-MRC模型可以通过问题加入一些先验知识,减小由于数据量太小带来的问题,在实际实验中,在数据量比较小的情况下,BERT-MRC模型的效果要较其他模型要更好一点。BERT-MRC模型很适合在缺乏标注数据的场景下使用。
具体细节参考:https://blog.csdn.net/eagleuniversityeye/article/details/109601547和https://zhuanlan.zhihu.com/p/326302618

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值