命名实体识别模型FLAT介绍

Sophie'sCookingLab

已于 2024-05-31 10:32:24 修改

阅读量1.1k

点赞数 28

分类专栏： NLP 文章标签：自然语言处理 bert

于 2024-04-11 17:50:18 首次发布

本文链接：https://blog.csdn.net/weixin_40566713/article/details/137646988

版权

FLAT: Chinese NER using flat-lattice transformer
Li X, Yan H, Qiu X, et al. FLAT: Chinese NER using flat-lattice transformer[J]. arXiv preprint arXiv:2004.11795, 2020.
Lex-BERT: Enhancing BERT based NER with lexicons
Zhu W, Cheung D. Lex-BERT: Enhancing BERT based NER with lexicons[J]. arXiv preprint arXiv:2101.00396, 2021.

为解决计算效率低下、引入词汇信息有损的这两个问题，FLAT基于Transformer结构进行了两大改进。
改进1：Flat-Lattice Transformer, 无损引入词汇信息。
改进2：相对位置编码。

一、中文ner为什么要引入词汇信息？

不同于英文NER，中文NER通常以字符为单位进行序列标注建模。这主要是由于中文分词存在误差，导致基于字符通常要好于基于词汇（经过分词）的序列标注建模方法。
那中文NER是不是就不需要词汇信息呢？答案当然是否定的。引入词汇信息的好处在于：
第一，强化实体边界，特别是对于span较长的实体边界更加有效。
第二，数据增强方式。对于NLP分类任务增益明显的数据增强方法，往往不能直接应用于NER任务，并且指标增益也极为有限。相反，引入词汇信息的增强方式对于小样本下的中文NER增益明显。
引入词汇信息增强中文NER性能的方法称为词汇增强。

二、词汇增强的方式有哪些？

词向量&词汇列表：利用一个具备良好分词结果的词向量；异或者不再利用词向量，仅利用词汇或者实体边界信息，通常可通过图网络提取相关信息。两大范式：

2.1 第种一范式：Dynamic Architecture

设计一个动态抽取框架，能够兼容词汇输入；本文所介绍的FLAT就属于这一范式。设计相应结构以融入词汇信息。

Lattice LSTM：开篇之作，设计兼容的LSTM将词汇信息引入中文NER任务；
LR-CNN：采取CNN进行堆叠编码，采取rethink机制解决词汇冲突问题；

2.2 第二种范式：Adaptive Embedding

基于词汇信息，构建自适应Embedding；与模型框架无关。ACL2020中的 Simplify the Usage of Lexicon in Chinese NER[1] 就属于这一范式，仅仅在embedding层融合词汇信息，对于词汇信息的引入更加简单有效，采取静态加权的方法可以提前离线计算。
分词器：单一的分词器会造成边界错误，

最低0.47元/天解锁文章