领域:NER领域——无监督条件下的NER识别任务。
总结
这篇文章是从NER的实体边界检测上,做了改进,是在边界检测方面,融合了BIO和文中提出的一种机制(Break or Tie)和phrase match机制,算是多种方法的结合吧(一个多粒度边界感知网络,从本地和全局检测实体边界)。在识别实体mention之后,做的实体类型的预测。
整理完之后的新的看法,这篇文章是在无监督条件下,利用phrase产生伪实体数据集,然后,需要有一个初始的dictionary做type classify,之后,使用type classification 模型预测phrase产生的伪实体的类型,作为过滤的决策,确定是否将其添加到字典中。————————数据集扩充第一步。
之后,利用扩展之后的,新的dictionary,重新训练type classification model。
整个过程实现了无标注数据集的NER识别。
所需源数据:corpus+dictionary+phrase tool (phrase mining tool——文章提到的)
文章流程
两个过程:蓝色(phrase扩展)和红色(实体识别程序)
大致过程:
给定无标注语料之后,使用autophrase技术抽取高质量短语,之后,通过实体分类模型,过滤掉非实体,剩余的phrase作为实体扩充到字典中。使用对标产生标注数据,之后,使用实体边界检测模型,在使用实体类型预测模型,输出最终实体集。
模型组成
1 phrase生成
module 01:高质量phrase生成阶段
输入:corpus+dictionary
输出:ranked phrases (阈值设置为:multi words>0.5 && single-word>0.9)
将输出的phrase直接视为entity,然后采用实体分类模型预测这些phrase的type。
module 02:实体分类
输入:phrase标注的实体数据集。(将概率阈值<0.3的部分作为none entity type)
输出:实体类型。(CLS和实体span部分对应的emdding 通过softmax产生type label)
module 03:实体过滤
过滤掉第2步中预测为none type的entity。跳过phrase被预测为多个category的entity。
将phrase预测和标注一致的添加到diction中,扩展dictionary。
2 实体识别
2.1边界检测
- break or Tie Tagging机制:T (Tie) indicates that both of the two
adjacent tokens belong to the same entity. (ii) B (Break) means that
the ties between adjacent tokens are broken into two parts
2.BIO机制:
3.phrase matching tagging机制:
***使用了phrase mining tool,获取高质量的phrases.??? ***
2.2 类型预测
将三种边界检测的结果融合,喂给实体分类模型,预测实体类型。
(该阶段的实体分类模型使用扩展之后的dictionary标注的数据集上做训练)