华为云研发团队 Accepted at NAACL2022 Findings
https://aclanthology.org/2022.findings-naacl.143.pdf
中文词汇中存在命名规律(Name Regularity),比如 “XX+河”一般是地点实体,“XX+公司”一般是组织机构实体。构建包含这种词汇信息的词汇表成本高,针对这个问题,文章提出了可以抽取命名规律的模型 RICON (Regularity-Inspired recognition Network)。
RICON是基于span的中文命名实体识别模型,结合了常规的span-based学习方法,主要创新点是在构建spanrepresentation过程中引入了规律信息。
(a)(b)都是经典的span表示方法,用实体的第一个词和最后一个词得到 span 特征向量, 具体计算公式如下:
span的规律特种由一层自注意力层实现,通过attention机制,在span表示中可以放大一些特殊规律词汇。
引入门控机制,根据 h span 和 h reg计算得到最终的 span表示。
以自动学习的方式,提取特殊规律词的特征,从逻辑上是合理的。但是在开放领的数据上提升效果并不明显
从消融实验可以看出,模型主要是的提升是 reg-aware,但是和baseline相比,F1的提升不到1个百分点。
作者在case study拿了两个 case来举例,第一个case因为引入了reg,通过“海”能够把baseline识别错的“波罗的海”分到正确的类别。但是,“美国公司”中的“公司”导致边界和分类都出错了。
不同类型实体的识别情况:Reg的提升主要集中几种类别的实体,在work类别有明显的下降。可见,特殊规律词应该是在部分领域才有明显的效果。
RICON在 CBLUE-CMeEE数据集上能充分体现其在特殊领域的效果,相比其他模型有显著的提升。
通过case study也可以看出在医疗领域的专有名词有规范的后缀词,这些case Biaffine都不能很好识别