NER中的词汇增强方法(LatticeLSTM、CGN、FLAT、Simple-Lexicon)

NER中的词汇增强方法

虽然基于字符的NER系统通常好于基于词汇(经过分词)的方法,但基于字符的NER没有利用词汇信息,而词汇边界对于实体边界通常起着至关重要的作用。

如何在基于字符的NER系统中引入词汇信息,是近年来NER的一个研究重点。这种在NER任务中引入词汇的方法又被称为词汇增强。从另一个角度看,由于NER标注数据资源的稀缺,BERT等预训练语言模型在一些NER任务上表现不佳。特别是在一些中文NER任务上,词汇增强的方法会好于或逼近BERT的性能。因此,词汇增强方法在中文NER任务很有必要。

词汇增强也可以看做是一种融入外部知识库的方法,传统的NER方法都是在挖掘输入文本中特征,比如词性、上下位字符、依存关系等等,而词汇增强则通过外部的词典,加入了不能从文本中直接挖掘出来的信息。在可预见的未来,信息抽取等多个NLP领域,融入外部知识库都会是一个重点的研究方向。

词汇增强方法根据融合词汇信息的方式不同又可以分为动态框架和自适应编码两种主要方式:

  1. Dynamic Architecture:设计一个动态框架,能够兼容词汇输入。例如Lattice LSTM,通过更改LSTM的结构动态的融入词汇信息
  2. Adaptive Embedding :基于词汇信息,构建自适应Embedding,在编码的过程中,融入词汇信息

Dynamic Architecture

LatticeLSTM

论文:Chinese NER Using Lattice LSTM(ACL18)

在bert出现之前的中文NER任务中,以字符还是以词汇作为输入单元是一个很难选择的问题。如果以词作为输入单元,一旦出现分词错误,就会直接影响实体边界的预测,导致识别错误,这在开放领域是很严重的问题。以字符作为输入单元的方法优于基于词的方法,但是由于没有进行分词,基于字符的方法无法利用句子中的单词信息,这也会使得识别效果有瑕疵。举个例子,比如一句话“南京市长江大桥”,如果没有单词信息,识别结果很可能为:“南京“、”市长”、“江大桥”,而正确的结果应该是“南京市“、“长江大桥”。

为了解决上述问题,论文提出了LatticeLSTM模型,该模型的核心思想是:通过 Lattice LSTM 将潜在的词汇信息融合到基于字符的 LSTM结构中。如下图所示,LatticeLSTM更改了LSTM的结构,在编码字符“市”的时候,加入了词汇“南京市”的信息,这样在进行实体识别的时候,模型就不会倾向于把“南京市”三个字分开。

在这里插入图片描述

LatticeLSTM通过更改LSTM的结构实现词汇信息的融入,这是一种非常典型的动态结构方法。在训练之前,需要做一个预处理过程,将输入文本和外部词表进行匹配,识别输入文本中的所有词汇,然后在训练过程中,LatticeLSTM会根据词汇的跨度信息,动态的改变LSTM结构将词汇信息融入该词汇的最后一个字符中。

LatticeLSTM的缺点:

  1. 计算性能低下,不能batch并行化。究其原因主要是每个字符之间增加的 word cell(看作节点)数目不一致,有的字符可能会融入多个词汇的信息,而有的词汇则不会融入词汇信息。
  2. 信息损失:对于一个词,只有词的末尾的那个字符会融入词汇的信息,如上图中,只有字符“市”在编码的过程中会融入“南京市”的词汇信息,其他字符“南”、“京”没有融入词汇信息。
  3. 可迁移性差:只适用于LSTM,不具备向其他神经网络如CNN等迁移的能力。

MGLatticeLSTM

论文:Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge(ACL19)

这篇论文和LatticeLSTM的结构差不多,对LSTM结构的改进方式是一样的,所以和LatticeLSTM有一样的缺点。MGLatticeLSTM的主要创新点在于引入了多义词。LatticeLSTM只能融入词汇的一种表示,但是中文词汇是存在多义词的,相同的词汇可能有不同的含义,如果在引入词汇的过程中引入了不正确的词义信息,那么可能会导致原本只使用字符作为输入就能正确分词的句子,在引入错误词义后导致分词出现错误。

MGLatticeLSTM为了解决这个问题,在融入词汇信息的过程中使用注意力机制将词汇所有的词义信息通过注意力进行整合,然后在加入进字符编码中。MGLatticeLSTM可以算作是对LatticeLSTM的补充。

在这里插入图片描述

LR-CNN

论文:CNN-Based Chinese NER with Lexicon Rethinking(IJCAI-19)

LR-CNN论文中首先提出了LatticeLSTM的不足

  • 效率限制: 基于RNN的模型由于循环结构的限制无法进行并行训练
  • 词汇冲突问题: 当句子中的某个字符同时出现在多个词汇中时,基于RNN的模型难以对此做出判断。例如,下图中的"长"即属于"市长"一词,也属于"长隆"一词,那么如何给字符“长”分配标签就成了问题,到底是应该按“市长”来分词,还是应该按“长隆”来分词。

在这里插入图片描述

针对RNN不能并行化训练的问题,LR-CNN改用CNN来作为编码层。针对词汇冲突问题,LR-CNN提出了一种Rethinking机制。LR-CNN的模型结构如下图所示:

在这里插入图片描述

LR-CNN采取CNN对字符特征进行编码,采用不同的感受野提取特征。将获得的multi-gram信息堆叠多层

  • 9
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值