FLAT: Chinese NER using flat-lattice transformer
Li X, Yan H, Qiu X, et al. FLAT: Chinese NER using flat-lattice transformer[J]. arXiv preprint arXiv:2004.11795, 2020.
Lex-BERT: Enhancing BERT based NER with lexicons
Zhu W, Cheung D. Lex-BERT: Enhancing BERT based NER with lexicons[J]. arXiv preprint arXiv:2101.00396, 2021.
为解决计算效率低下、引入词汇信息有损的这两个问题,FLAT基于Transformer结构进行了两大改进。
改进1:Flat-Lattice Transformer, 无损引入词汇信息。
改进2:相对位置编码。
一、中文ner为什么要引入词汇信息?
不同于英文NER,中文NER通常以字符为单位进行序列标注建模。这主要是由于中文分词存在误差,导致基于字符通常要好于基于词汇(经过分词)的序列标注建模方法。
那中文NER是不是就不需要词汇信息呢?答案当然是否定的。引入词汇信息的好处在于:
第一,强化实体边界,特别是对于span较长的实体边界更加有效。
第二,数据增强方式。对于NLP分类任务增益明显的数据增强方法,往往不能直接应用于NER任务,并且指标增益也极为有限。相反,引入词汇信息的增强方式对于小样本下的中文NER增益明显。
引入词汇信息增强中文NER性能的方法称为词汇增强。
二、词汇增强的方式有哪些?
词向量&词汇列表:利用一个具备良好分词结果的词向量;异或者不再利用词向量,仅利用词汇或者实体边界信息,通常可通过图网络提取相关信息。两大范式:
2.1 第种一范式:Dynamic Architecture
设计一个动态抽取框架,能够兼容词汇输入;本文所介绍的FLAT就属于这一范式。设计相应结构以融入词汇信息。
Lattice LSTM:开篇之作,设计兼容的LSTM将词汇信息引入中文NER任务;
LR-CNN:采取CNN进行堆叠编码,采取rethink机制解决词汇冲突问题;
2.2 第二种范式:Adaptive Embedding
基于词汇信息,构建自适应Embedding;与模型框架无关。ACL2020中的 Simplify the Usage of Lexicon in Chinese NER[1] 就属于这一范式,仅仅在embedding层融合词汇信息,对于词汇信息的引入更加简单有效,采取静态加权的方法可以提前离线计算。
分词器:单一的分词器会造成边界错误,