论文速读 | RICON 中文实体NER SOTA

文章介绍了一种名为RICON的模型,该模型旨在抽取中文词汇中的命名规律,如“XX+河”对应地点实体。RICON结合了span-based方法,并通过自注意力层和门控机制强化规律特征。尽管在特定领域如医疗名词识别上有提升,但在开放领域数据上的效果提升不明显。实验表明,RICON在CBLUE-CMeEE数据集上表现优秀,尤其对具有规范后缀的专有名词识别准确率提高。
摘要由CSDN通过智能技术生成

5e5deb1bd99d054cb0455927d7f969ad.png

华为云研发团队 Accepted at NAACL2022 Findings 

https://aclanthology.org/2022.findings-naacl.143.pdf

中文词汇中存在命名规律(Name Regularity),比如 “XX+河”一般是地点实体,“XX+公司”一般是组织机构实体。构建包含这种词汇信息的词汇表成本高,针对这个问题,文章提出了可以抽取命名规律的模型 RICON (Regularity-Inspired recognition Network)。

RICON是基于span的中文命名实体识别模型,结合了常规的span-based学习方法,主要创新点是在构建spanrepresentation过程中引入了规律信息。

3d5043a60cc5c843f003d7fb3b2c3152.png

73fe17fe54341d2b8fcc89c1d8993ee6.png

(a)(b)都是经典的span表示方法,用实体的第一个词和最后一个词得到 span 特征向量, 具体计算公式如下: 

d6fe142f72ba2830a50c8ee37fc7e210.png

span的规律特种由一层自注意力层实现,通过attention机制,在span表示中可以放大一些特殊规律词汇。

1134bf9d2d1526ccef87a76f169756ab.png

引入门控机制,根据 h span 和 h reg计算得到最终的 span表示。

c903cfff48337a5170ca905420e05ddf.png

f218f35c1c1c8087f87be160d63b1c95.png

以自动学习的方式,提取特殊规律词的特征,从逻辑上是合理的。但是在开放领的数据上提升效果并不明显

从消融实验可以看出,模型主要是的提升是 reg-aware,但是和baseline相比,F1的提升不到1个百分点。

4bb0b631016ab3feba9e9a2f983d0dc5.png

作者在case study拿了两个 case来举例,第一个case因为引入了reg,通过“海”能够把baseline识别错的“波罗的海”分到正确的类别。但是,“美国公司”中的“公司”导致边界和分类都出错了。

8ec4bf5b49233b48e14b7e2a8b783227.png

4d45a3760fe5745eefa1c9ace274c444.png

不同类型实体的识别情况:Reg的提升主要集中几种类别的实体,在work类别有明显的下降。可见,特殊规律词应该是在部分领域才有明显的效果。

RICON在 CBLUE-CMeEE数据集上能充分体现其在特殊领域的效果,相比其他模型有显著的提升。

a5c7fab8844062f057ab7cdb9884226f.png

通过case study也可以看出在医疗领域的专有名词有规范的后缀词,这些case Biaffine都不能很好识别

6b477d55b591cf7df943d431f75cf630.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值