NER的三个标注框架

最新推荐文章于 2024-04-01 10:26:05 发布

谈笑风生...

最新推荐文章于 2024-04-01 10:26:05 发布

阅读量2.8k

点赞数 2

分类专栏：自然语言处理文章标签：知识图谱自然语言处理深度学习

本文链接：https://blog.csdn.net/qq_40176087/article/details/121489422

版权

自然语言处理专栏收录该内容

16 篇文章 4 订阅

订阅专栏

这篇文章主要来说说自己最近做ner任务时使用过的三个不同的标注框架，分别是序列标注、指针标注和阅读理解的标注形式。下面分别讲述三个标注体系框架。

序列标注

在ner任务中，序列标注是最为常见的标注体系，也是比较容易理解的标注体系，以Bi-lstm+CRF为例，就是一种序列标注体系，在另一篇博文中详细介绍了Bi-lstm+CRF的原理以及用法，详情参考：知识图谱之命名实体识别,这里就不再赘述了。

指针标注

废话不多说，直接上图，看图说故事。

在这里插入图片描述
在指针标注体系中，使用span模块代替了CRF模块，加快了训练速度，以半指针-半标注的结构预测实体的起始位置，同时标注过程中给出实体类别，简单点说，就是设置两个指针start和end，分别记录每一种实体的开始和结束的位置，并且在记录位置的同时，标注该实体的类别，如上图所示，”朝阳区“和**”小关北里“**表示两个实体，实体类别分别用3和8表示，最后输出层分别用start dense layer和end dense layer两个指针网络标注两个实体的起始位置和所属类别，最后的损失由两个指针网络的损失累加求和。

应用场景：指针网络擅长解决嵌套实体，举个例子：”呼吸中枢受累“，这是一个医学术语，呼吸中枢是表示部位的实体，呼吸中枢受累是表示症状的实体，典型的嵌套实体，如果用一般的序列标注的方法来提取，只能提取其中的一个实体，但是用层叠式指针标注就可以解决这一问题。

MRC标注体系

BERT-MRC模型是目前实体识别领域的一个SOTA模型，在数据量较小的情况下效果较其他模型要更好，原因是因为BERT-MRC模型可以通过问题加入一些先验知识，减小由于数据量太小带来的问题，在实际实验中，在数据量比较小的情况下，BERT-MRC模型的效果要较其他模型要更好一点。BERT-MRC模型很适合在缺乏标注数据的场景下使用。
具体细节参考：https://blog.csdn.net/eagleuniversityeye/article/details/109601547和https://zhuanlan.zhihu.com/p/326302618

谈笑风生...

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
NER的三个标注框架

这篇文章主要来说说自己最近做ner任务时使用过的三个不同的标注框架，分别是序列标注、指针标注和阅读理解的标注形式。下面分别讲述三个标注体系框架。序列标注在ner任务中，序列标注是最为常见的标注体系，也是比较容易理解的标注体系，以Bi-lstm+CRF为例，就是一种序列标注体系，在另一篇博文中详细介绍了Bi-lstm+CRF的原理以及用法，详情参考：知识图谱之命名实体识别,这里就不再赘述了。指针标注废话不多说，直接上图，看图说故事。在指针标注体系中，使用span模块代替了CRF模块，加快了训练速度
复制链接

扫一扫

专栏目录