EMNLP-21-TEBNER: Domain Specific Named Entity Recognition with Type Expanded Boundary-aware Network

领域:NER领域——无监督条件下的NER识别任务。

总结

这篇文章是从NER的实体边界检测上,做了改进,是在边界检测方面,融合了BIO和文中提出的一种机制(Break or Tie)和phrase match机制,算是多种方法的结合吧(一个多粒度边界感知网络,从本地和全局检测实体边界)。在识别实体mention之后,做的实体类型的预测。

整理完之后的新的看法,这篇文章是在无监督条件下,利用phrase产生伪实体数据集,然后,需要有一个初始的dictionary做type classify,之后,使用type classification 模型预测phrase产生的伪实体的类型,作为过滤的决策,确定是否将其添加到字典中。————————数据集扩充第一步。
之后,利用扩展之后的,新的dictionary,重新训练type classification model。
整个过程实现了无标注数据集的NER识别。
所需源数据:corpus+dictionary+phrase tool (phrase mining tool——文章提到的)

文章流程

两个过程:蓝色(phrase扩展)和红色(实体识别程序)

大致过程:
给定无标注语料之后,使用autophrase技术抽取高质量短语,之后,通过实体分类模型,过滤掉非实体,剩余的phrase作为实体扩充到字典中。使用对标产生标注数据,之后,使用实体边界检测模型,在使用实体类型预测模型,输出最终实体集。

在这里插入图片描述

模型组成

在这里插入图片描述

1 phrase生成

module 01:高质量phrase生成阶段

输入:corpus+dictionary
输出:ranked phrases (阈值设置为:multi words>0.5 && single-word>0.9)
将输出的phrase直接视为entity,然后采用实体分类模型预测这些phrase的type。

module 02:实体分类

输入:phrase标注的实体数据集。(将概率阈值<0.3的部分作为none entity type)
输出:实体类型。(CLS和实体span部分对应的emdding 通过softmax产生type label)

module 03:实体过滤

过滤掉第2步中预测为none type的entity。跳过phrase被预测为多个category的entity。
将phrase预测和标注一致的添加到diction中,扩展dictionary。

2 实体识别

2.1边界检测
  1. break or Tie Tagging机制:T (Tie) indicates that both of the two
    adjacent tokens belong to the same entity. (ii) B (Break) means that
    the ties between adjacent tokens are broken into two parts
    2.BIO机制:
    3.phrase matching tagging机制:
    ***使用了phrase mining tool,获取高质量的phrases.??? ***
2.2 类型预测

将三种边界检测的结果融合,喂给实体分类模型,预测实体类型。
(该阶段的实体分类模型使用扩展之后的dictionary标注的数据集上做训练)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值