【综述】面向少量标注数据的命名实体识别研究

这篇博客的总结参考下面这篇文章,引用的序号对应论文中的引用,没有重新排序
[1] 石教祥, 朱礼军, 望俊成,等. 面向少量标注数据的命名实体识别研究[J]. 情报工程, 2020, 6(4):14.

论文中总结了少量标注数据NER方法,具体地,按照数据、模型、特征、知识的学习逻辑区分为4类:

  • 数据增强
  • 模型迁移
  • 特征变换
  • 知识链接

数据增强

数据增强的方法即:在少量数据集训练模型导致过拟合时,通过样本选择、权重调整等策略以创建高质量样本集,再返回分类器中迭代学习,使之能够较好地完成学习任务的方法[6]

[6] Wen Y D, Qiang Y, Gui R X, et al. Boosting for transfer learning[C]. Proceedings of the 24th international conference on Machine learning, 2007:193-200.

1. 样本选择(主动学习)

在面向少量标注数据时,最直接的策略是挑选出高质量样本以扩大训练数据。其中,样本选择是数据增强式NER的核心模块,它通过一定的度量准则(不确定性标准、版本空间缩减标准、泛化误差缩减标准)挑选出置信度高、信息量大的样本参与训练,一种典型的思路为主动学习(Active learning)采样。

主动学习通过一定的算法查询最有用的未标记样本,并交由专家标注,然后将带标注样本加入训练样本集迭代训练提升模型性能。

[7] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[J]. ar Xiv preprint ar Xiv:1707.05928, 2017.
[8] 高冰涛 张阳 , 刘斌 . Bio Tr HMM: 基于迁移学习的生物医学命名实体识别算法 [J]. 计算机应用研究 , 2019, 36(1):45-48.
[9] Shun Z, Shao F L, Jiang F G, et al. Recognizing Small-Sample Biomedical Named Entity Based on Contextual Domain Relevance[C]. 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). 2019:1509-1516.
[10] 钟志农 , 刘方驰 , 吴烨 , 等 . 主动学习与自学习的中文命名实体识别 [J]. 国防科技大学学报 , 2014, 36(4):82-88.
[11] 梅涛 . 基于主动自步学习的文本分类研究 [D]. 西安 : 西安电子科技大学 , 2018.

2. 分类器集成(Boosting)

在数据增强中,训练多个弱分类器来获得一个强分类器的学习方法也是一种可行的思路。
[6] Wen Y D, Qiang Y, Gui R X, et al. Boosting for transfer learning[C]. Proceedings of the 24th international conference on Machine learning, 2007:193-200.
[12] 王红斌 , 沈强 , 线岩团 . 融合迁移学习的中文命名实体识别 [J]. 小型微型计算机系统 , 2017, 38(2):346-351.

模型迁移

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ref29DGt-1638694595365)(en-resource://database/3065:1)]

1. 共享词嵌入(预训练)

一些常用的方法就是预训练:
ELMo
GPT3
BERT

2. 共享参数

共享词嵌入侧重于词义表示,而共享参数则侧重于模型参数的迁移。

18] Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[C]. Proceedings of the 28th Conference on Neural Information Processing Systems(NIPS), 2014:3320-3328.
[19] Giorgi J M, Bader G D. Transfer learning for biomedical namedentity recognition with neural networks[ J ]. Bioinformatics, 2018 ,34(23):4087-4094.
[20] Zhi L Y, Ruslan S, William W C. Transfer learning for sequence tagging with hierarchical recurrent networks[J]. ar Xiv preprint ar Xiv:1703.06345, 2017.

模型迁移的问题:模型迁移在解决领域相近的任务时表现良好。但是当领域之间存在较大差异时,模型无法捕获丰富、复杂的跨域信息。

特征变换

1. 特征选择

即通过一定的度量方法选取相似特征并转换,在源域和目标之间构建有效的桥梁的策略。

[22] Hal D. Frustratingly easy domain adaptation[C]. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. 2007:256-263.
[23] Young B K, Karl S, Rruhi S, et al. New transfer learning techniques for disparate label sets[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015, 1:473-482.

2. 特征映射

即俄日了减少跨领域数据的偏置,在不同领域之间构建资源共享的特征空间,并将各个领域的初始特征映射到该共享空间,并将各领域的初始特征映射到该共享空间上。

利用预测的源标签嵌入至目标领域是一种常见策略。

[25] Lizhen Q, Gabriela F, Liyuan Z, et al. Named Entity Recognition for Novel Types by Transfer Learning[C]. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016:899-905.

知识链接

即使用本体、知识库等结构化资源来启发式地标记数据,将数据的结构关系作为共享对象,从而帮助解决目标NER任务,其本质上是一种基于远程监督的学习方式,利用外部知识库和本体库来补充标注实体。

1. 基于知识库

这种方式通常借用外部的知识库来处理NER,Dbpedia、YAGO、百度百科等知识库存在海量结构化信息,利用这些知识库的结构话信息框、日志信息可以抽取出海量知识。

[29] Alexander E R, Patrick S. Mining Wiki Resources for Multilingual Named Entity Recognition[C]. Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. 2008:1-9.
[30] Xiao M P, Bo L Z, Jonathan M, et al. Cross-lingual name tagging and linking for 282 languages[C]. proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017:1946–1958.
[31] Ren X, Wu Z, He W, et al. Cotype: Joint extraction of typed entities and relations with knowledge bases[C]. proceedings of the 26th International Conference on World Wide Web. 2017:1015-1024.

2. 基于本体系统

该方式通过一定的规则,将本体库中的概念映射为实体。

[32] 史树敏 , 冯冲 , 黄河燕 , 等 . 基于本体的汉语领域命名实体识别 [J]. 情报学报 , 2009, 28(6):857-863.
[33] Rinaldo L, Bernard E, Fred F. Onto ILPER: an ontology - and inductive logic programming-based system to extract entities and relations from text[J]. Knowledge and Information Systems, 2018, 56(1):223-255.
[34] 李贯峰 , 张鹏 . 一个基于农业本体的 Web 知识抽取模型 [J]. 江苏农业科学 , 2018, 46(4):201-205.

四种方法比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Lix5z5yV-1638694595366)(en-resource://database/3067:1)]

面向少量标注数据 NER,最直接的方法是数据增强,通过优先挑选高质量样本参与训练,这种方法在窄域中能实现较高的准确率。但是针对不同领域所需的策略也不同,领域的泛化能力一般。

模型迁移从海量无结构化文本中获取知识,这种方式对目标领域的数据需求较少,只需“微调”模型避免了重新训练的巨大开销,但是它依赖领域的强相关性,当领域差异性太大时,容易产生域适应问题。

相较于模型迁移,特征变换更加注重细粒度知识表示,这种方法利用特征重组和映射,丰富特征表示,减少知识迁移中的损失,在一定程度上能实现“零样本”学习,但是这种方法往往难以求出优化解,过适配现象也会造成消极影响。

知识链接能利用任何结构化信息,通过知识库、本体库中的语义关系来辅助抽取目标实体,但是这种方法易产生噪声,实体的映射匹配依赖强假设条件,所需的知识库通常难以满足领域实体的抽取。

常用数据集

模型测评

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y7SklVA3-1638694595366)(en-resource://database/3069:1)]

数据增强:
[7] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[J]. ar Xiv preprint ar Xiv:1707.05928, 2017.
[35]
[9] Shun Z, Shao F L, Jiang F G, et al. Recognizing Small-Sample Biomedical Named Entity Based on Contextual Domain Relevance[C]. 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). 2019:1509-1516.
[16]李妮 , 关焕梅 , 杨飘 , 等 . 基于 BERT-IDCNN-CRF的中文命名实体识别方法 [J]. 山东大学学报 ( 理学版 ), 2020, 55(1):102-109.

模型迁移:
[36] Lee J, Yoon W, Kim S, et al. Bio BERT:a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4):1234-1240.
[20] Zhi L Y, Ruslan S, William W C. Transfer learning for sequence tagging with hierarchical recurrent networks[J]. ar Xiv preprint ar Xiv:1703.06345, 2017.
[23] Young B K, Karl S, Rruhi S, et al. New transfer learning techniques for disparate label sets[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015, 1:473-482.

特征变换:
[25] Lizhen Q, Gabriela F, Liyuan Z, et al. Named Entity Recognition for Novel Types by Transfer Learning[C]. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016:899-905.
[26] Bill Y L, Wei L. Neural Adaptation Layers for Cross-domain Named Entity Re-cognition[C]. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018:2012–2022.
[37] Brooke J, Hammond A, Baldwin T. Bootstrapped text-level named entity recognition for literature[C]. proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers). 2016:344-350.

知识链接:
[31] Xiao M P, Bo L Z, Jonathan M, et al. Cross-lingual name tagging and linking for 282 languages[C]. proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017:1946–1958.
[38] Karadeniz I, Özgür A. Linking entities through an ontology using word embeddings and syntactic re-ranking[J], BMC bioinformatics, 2019, 20(1):156.

未来研究方向

1. 样本选择策略的改进

结合生成模型和样本选择是不错的策略,例如利用GAN[39]能迭代生成样本的优势以进行数据增强。

2. 考虑零样本学习

考虑零样本学习[40],后续的研究可以考虑基于预训练模型进行改进,也可以分析不同领域零样本语料对模型的影响强度。

3. 考虑予以漂移与噪声

借助第三方域完成是指传递,也可以来联合多任务学习完成。在未来结合予以与深度增强模型区分正例和反例是一个可选的方向。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值