小黑信息抽取综述阅读1--------命名实体识别

1.数据集和评测指标

(1)常用的中文 NER 数据集包括:OntoNotes4.0 ,MSRA 和 Weibo 等,前两个是由新闻文本中抽取得到,后一个是由社交媒体中抽取得到。常用的英文数据集有 CoNLL2003 ,ACE 2004 和 OntoNotes 5.0 等。想了解更多数据集,建议参见 https://paperswithcode.com/task/named-entity-recognition-ner。
(2)在数据标注上,主要有 BIO(Beginning、Inside、Outside)和 BIOES(Beginning、Inside、End、Outside、Single)两种标注体系。此外,还有针对复杂实体抽取建立的改进版本的标注方法。
在模型评测上,由于命名实体的识别包括实体边界和类型的识别,因此只有一个实体的边界和类型都被正确识别时,才能被认为实体被正确识别。根据对实体边界预测的精准度的要求不同可以分为 Exact Match 或 Relaxed Match,并且使用准确率,召回率以及 F1 值来计算得分。目前,基于 Exact Match 的 micro 的准确率,召回率以及 F1 值最为常用。

2.面临挑战

目前,命名实体识别在行业知识图谱构建方面主要面临如下挑战:

(1)垂直领域标注语料少,导致模型效果不好

垂直领域细分类别很多,在进入一个新的垂直领域时,往往可用的监督数据是很有限的。在此基础上所训练得到的模型的识别效果是不尽人意的。

(2)垂直领域先验知识未能有效利用

在有监督数据足够的前提下,行业内其他类型的先验知识的量相对来讲是更大的。但是这些行业数据却没有很合理的应用到 NER 任务中来更有效的提升模型性能。

(3)垂直领域复杂实体难以识别

一般研究和落地中遇到的实体识别大多为连续实体的识别,但复杂实体识别在实际应用中的占比越来越高,特别是在医疗领域的实体抽取中。

3.主流模型

(1)词汇增强
Lattice-LSTM:融入字符级别特征信息,整合入LSTM
LR-CNN: Rethink 机制来解决 Lattice-LSTM 模型不能并行化以及句子中词汇之间的混淆的问题
FLAT :在融合字符与词汇的 Lattice 结构上,引入 Transformer 来进行建模。FLAT 根据词汇之间的头尾,头头,尾头,尾尾字符距离定义了四种距离,并且对这四种距离进行向量编码。
(2)实体类型信息增强
BERT-MRC:

将所要预测的实体类型的描述信息作为先验知识输入到模型中,并且将 NER 问题建模为阅读理解问题(MRC),最终通过 BERT 来进行建模。

TriggerNER:

同样是将实体的类型信息作为模型的输入的一部分,区别于 BERT-MRC,其实体类型信息来源于句子中的一部分词汇,称为 Trigger words。

NCRF-AE :

将 label 信息建模为隐变量,进而利用 autoencoder 的模型来同时对有标签和无标签数据进行建模训练。

(3)复杂实体

a.为解决含有不连续实体的 overlapping 实体识别问题,引入了 BIO 标注体系的变体,即在 BIO 的基础上,增加了 BD,BI,BH,IH 四个指标,分别代表Beginning of Discontinuous body, Inside of Discontinuous body, Beginning of Head 和 Inside of Head。
b. 基于 transition-based 方法,引入更加丰富的 action 类别来解决不连续实体 overlapping 识别的问题。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值