【学习笔记】中文NER词汇增强方法总结 (从Lattice LSTM到FLAT)

1.对于中文NER,什么是「词汇增强」?
虽然基于字符的NER系统通常好于基于词汇(经过分词)的方法,但基于字符的NER没有利用词汇信息,而词汇边界对于实体边界通常起着至关重要的作用

如何在基于字符的NER系统中引入词汇信息,是近年来NER的一个研究重点。本文将这种引入词汇的方法称之为「词汇增强」,以表达引入词汇信息可以增强NER性能。

从另一个角度看,由于NER标注数据资源的稀缺,BERT等预训练语言模型在一些NER任务上表现不佳。特别是在一些中文NER任务上,词汇增强的方法会好于或逼近BERT的性能。因此,关注「词汇增强」方法在中文NER任务很有必要。

2.「词汇增强」的主要方法有哪些?
近年来,基于词汇增强的中文NER主要分为2条主线:

Dynamic Architecture:设计一个动态框架,能够兼容词汇输入;
Adaptive Embedding :基于词汇信息,构建自适应Embedding;
本文按照上述2条主线,将近年来各大顶会的相关论文归纳如下:

在这里插入图片描述
以下内容是对这8篇论文进行分析比较:
原文链接

Reference

[1] Lattice LSTM:Chinese NER Using Lattice LSTM
[2] LR-CNN:CNN-Based Chinese NER with Lexicon Rethinking
[3] CGN:Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network
[4] LGN: A Lexicon-Based Graph Neural Network for Chinese NER
[5] FLAT: Chinese NER Using Flat-Lattice Transformer
[6] WC-LSTM: An Encoding Strategy Based Word-Character LSTM for Chinese NER Lattice LSTM
[7] Multi-digraph: A Neural Multi-digraph Model for Chinese NER with Gazetteers
[8] Simple-Lexicon:Simplify the Usage of Lexicon in Chinese NER
[9] 结合词典的中文命名实体识别 (复旦大学自然语言处理组)

3.最终得出的结果:
1)引入词汇信息的方法,都相较于baseline模型biLSTM+CRF有较大提升,可见引入词汇信息可以有效提升中文NER性能。
2)采用相同词表对比时,FLAT和Simple-Lexicon好于其他方法。
3)结合BERT效果会更佳。

学习思考:
针对中文NER任务,可以从【词汇增强】方面提高性能,上文中BERT+FLAT效果最佳,在越大的数据集上,引入BERT带来的效果提升就越显著,小数据引入BERT效果显著。FLAT其次。那么FLAT结构是什么呢?怎么跟BERT融合使用?
FLAT论文链接,论文中有code
在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值