参考链接:
【关于 中文领域 NER】 那些的你不知道的事
打开你的脑洞:NER如何进行数据增强 ?
标注样本少怎么办?「文本增强+半监督学习」总结(从PseudoLabel到UDA/FixMatch)
1. 中文NER的难点(和英文的区别)
和英文NER每个单词都使用空格分隔不同,中文 NER 是基于字的表示方法,所以一般会涉及到中文分词和中文NER技术,导致 中文 NER 技术容易受到中文分词的误差的影响。
那么常用的方法有哪些呢?
- 词汇增强:在早期的中文NER技术中,基于字符的 NER 方法往往具有高于基于词汇(分词后)的方法,为了提高基于词汇方法的效果,一般会采取引入词汇信息(词汇增强)的方法;
- 词汇/实体类型信息增强:使用特殊标记来识别句子中单词的边界,修改后的句子将由BERT直接编码。
2. 词汇增强
2.1 什么是词汇增强?
词汇增强:引入词汇信息(词汇增强)来增强 模型 识别 句子中实体的方法。
虽然基于字符的NER系统通常好于基于词汇(经过分词)的方法,但基于字符的NER没有利用词汇信息,而词汇边界对于实体边界通常起着至关重要的作用。
如何在基于字符的NER系统中引入词汇信息,是近年来NER的一个研究重点。本文将这种引入词汇的方法称之为「词汇增强」,以表达引入词汇信息可以增强NER性能。
从另一个角度看,由于NER标注数据资源的稀缺,BERT等预训练语言模型在一些NER任务上表现不佳。特别是在一些中文NER任务上,词汇增强的方法会好于或逼近BERT的性能。因此,关注「词汇增强」方法在中文NER任务很有必要。
词汇增强模型
Dynamic Architecture
- Lattice LSTM
- LR-CNN
- FLAT
Adaptive Embedding 范式
- WC-LSTM
- Multi-digraph
- Simple-Lexicon
词汇/实体类型信息增强
LEX-BERT
论文:
Lattice LSTM:Chinese NER Using Lattice LSTM(ACL2018)
FLAT: Chinese NER Using Flat-Lattice Transformer(ACL2020)
WC-LSTM: An Encoding Strategy Based Word-Character LSTM for Chinese NER Lattice LSTM(NAACL2019)
Multi-digraph: A Neural Multi-digraph Model for Chinese NER with Gazetteers(ACL2019)
Simple-Lexicon:Simplify the Usage of Lexicon in Chinese NER(ACL2020)
Lex-BERT: Enhancing BERT based NER with lexicons
COLING20:《An Analysis of Simple Data Augmentation for Named Entity Recognition》
EMNLP20:《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》