【学习笔记】中文NER词汇增强方法总结 (从Lattice LSTM到FLAT)

最新推荐文章于 2024-04-25 10:48:05 发布

张海木木

最新推荐文章于 2024-04-25 10:48:05 发布

阅读量1.4k

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/mumu_77zhl/article/details/109297207

版权

1.对于中文NER，什么是「词汇增强」？
虽然基于字符的NER系统通常好于基于词汇（经过分词）的方法，但基于字符的NER没有利用词汇信息，而词汇边界对于实体边界通常起着至关重要的作用。

如何在基于字符的NER系统中引入词汇信息，是近年来NER的一个研究重点。本文将这种引入词汇的方法称之为「词汇增强」，以表达引入词汇信息可以增强NER性能。

从另一个角度看，由于NER标注数据资源的稀缺，BERT等预训练语言模型在一些NER任务上表现不佳。特别是在一些中文NER任务上，词汇增强的方法会好于或逼近BERT的性能。因此，关注「词汇增强」方法在中文NER任务很有必要。

2.「词汇增强」的主要方法有哪些？
近年来，基于词汇增强的中文NER主要分为2条主线：

Dynamic Architecture：设计一个动态框架，能够兼容词汇输入；
Adaptive Embedding ：基于词汇信息，构建自适应Embedding；
本文按照上述2条主线，将近年来各大顶会的相关论文归纳如下：

在这里插入图片描述
以下内容是对这8篇论文进行分析比较：
原文链接

Reference

[1] Lattice LSTM：Chinese NER Using Lattice LSTM
[2] LR-CNN:CNN-Based Chinese NER with Lexicon Rethinking
[3] CGN:Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network
[4] LGN: A Lexicon-Based Graph Neural Network for Chinese NER
[5] FLAT: Chinese NER Using Flat-Lattice Transformer
[6] WC-LSTM: An Encoding Strategy Based Word-Character LSTM for Chinese NER Lattice LSTM
[7] Multi-digraph: A Neural Multi-digraph Model for Chinese NER with Gazetteers
[8] Simple-Lexicon：Simplify the Usage of Lexicon in Chinese NER
[9] 结合词典的中文命名实体识别（复旦大学自然语言处理组）

3.最终得出的结果：
1）引入词汇信息的方法，都相较于baseline模型biLSTM+CRF有较大提升，可见引入词汇信息可以有效提升中文NER性能。
2）采用相同词表对比时，FLAT和Simple-Lexicon好于其他方法。
3）结合BERT效果会更佳。

学习思考：
针对中文NER任务，可以从【词汇增强】方面提高性能，上文中BERT+FLAT效果最佳，在越大的数据集上，引入BERT带来的效果提升就越显著，小数据引入BERT效果显著。FLAT其次。那么FLAT结构是什么呢？怎么跟BERT融合使用？
FLAT论文链接，论文中有code
在这里插入图片描述

张海木木

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】中文NER词汇增强方法总结 (从Lattice LSTM到FLAT)

1.对于中文NER，什么是「词汇增强」？虽然基于字符的NER系统通常好于基于词汇（经过分词）的方法，但基于字符的NER没有利用词汇信息，而词汇边界对于实体边界通常起着至关重要的作用。如何在基于字符的NER系统中引入词汇信息，是近年来NER的一个研究重点。本文将这种引入词汇的方法称之为「词汇增强」，以表达引入词汇信息可以增强NER性能。从另一个角度看，由于NER标注数据资源的稀缺，BERT等预训练语言模型在一些NER任务上表现不佳。特别是在一些中文NER任务上，词汇增强的方法会好于或逼近BERT的性能。
复制链接

扫一扫