论文速读 | RICON 中文实体NER SOTA

zenRRan

于 2022-12-20 18:58:48 发布

阅读量336

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247516292&idx=3&sn=d9c9789a3bda80029f18e6dbe52a0637&chksm=eb539417dc241d01e415ae4a8f7958a6bcb15b5ed540d52629ba5bc69ed74538a11fb537111d&scene=126&sessionid=0

版权

文章介绍了一种名为RICON的模型，该模型旨在抽取中文词汇中的命名规律，如“XX+河”对应地点实体。RICON结合了span-based方法，并通过自注意力层和门控机制强化规律特征。尽管在特定领域如医疗名词识别上有提升，但在开放领域数据上的效果提升不明显。实验表明，RICON在CBLUE-CMeEE数据集上表现优秀，尤其对具有规范后缀的专有名词识别准确率提高。

摘要由CSDN通过智能技术生成

华为云研发团队 Accepted at NAACL2022 Findings

https://aclanthology.org/2022.findings-naacl.143.pdf

中文词汇中存在命名规律（Name Regularity），比如 “XX+河”一般是地点实体，“XX+公司”一般是组织机构实体。构建包含这种词汇信息的词汇表成本高，针对这个问题，文章提出了可以抽取命名规律的模型 RICON （Regularity-Inspired recognition Network）。

RICON是基于span的中文命名实体识别模型，结合了常规的span-based学习方法，主要创新点是在构建spanrepresentation过程中引入了规律信息。

(a)(b)都是经典的span表示方法，用实体的第一个词和最后一个词得到 span 特征向量，具体计算公式如下：

span的规律特种由一层自注意力层实现，通过attention机制，在span表示中可以放大一些特殊规律词汇。

引入门控机制，根据 h span 和 h reg计算得到最终的 span表示。

以自动学习的方式，提取特殊规律词的特征，从逻辑上是合理的。但是在开放领的数据上提升效果并不明显

从消融实验可以看出，模型主要是的提升是 reg-aware，但是和baseline相比，F1的提升不到1个百分点。

作者在case study拿了两个 case来举例，第一个case因为引入了reg，通过“海”能够把baseline识别错的“波罗的海”分到正确的类别。但是，“美国公司”中的“公司”导致边界和分类都出错了。

不同类型实体的识别情况：Reg的提升主要集中几种类别的实体，在work类别有明显的下降。可见，特殊规律词应该是在部分领域才有明显的效果。

RICON在 CBLUE-CMeEE数据集上能充分体现其在特殊领域的效果，相比其他模型有显著的提升。

通过case study也可以看出在医疗领域的专有名词有规范的后缀词，这些case Biaffine都不能很好识别

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文速读 | RICON 中文实体NER SOTA

华为云研发团队Accepted at NAACL2022 Findingshttps://aclanthology.org/2022.findings-naacl.143.pdf中文词汇中存在命名规律（Name Regularity），比如 “XX+河”一般是地点实体，“XX+公司”一般是组织机构实体。构建包含这种词汇信息的词汇表成本高，针对这个问题，文章提出了可以抽取命名规律的模型 RICO...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。