A Survey on Deep Learning for Named Entity Recognition 札记

1.NER 进化

  • 早期 ner :需要很多的human effort 来指定规则和特征
(1)什么是 NER

有两种主张:

serving as a name for something or someone

proper names and natural kind terms like biological species
and substances.

不论如何,现在主要把NER 划分为general NE ,domain-specific NE

按照粒度划分NER 任务

  • coarse-grained NER:仅有少数类别,并且一个NE 只有一个entity type
  • fine-grained NER:有很多类别,一个NE 可能有不同的 entity types
(2) DL 中的 NER
  • 需要最少的feature engineering,原文中 引用17-21已经提到了一些 SOTA 的 DL 模型,原文中引用 22-26 提到了一些关于NER 的 survey

论文中系统地 把DL NER 划分为三个部分:

  • distributed representations for input
  • context encoder (for capturing contextual dependencies for tag decoder)
  • tag decoder (for predicting labels of words in the given sequence)
(3) NER 数据集和工具

见原文

(4) NER 评估

boundarytype 都是对才为分类正确

  1. 三个类别:
  • True Positive (TP): entities that are recognized by
    NER and match ground truth.

  • False Positive (FP): entities that are recognized byNER but do not match ground truth.

  • False Negative (FN): entities annotated in the ground
    truth that are not recognized by NER.
    有两个分类标准: precision recall
    F_beta用于综合两者

                  precision = TP / TP+FP
                  recall = TP / TP+FN
    

2.macro-averaged F-score: 单独计算每个类取平均
micro-averaged F-score:一块算,大烩菜!!

2.NER传统方法

(1)依赖 手工构造规则

依赖于手工构造的规则,可能是基于domain-specific gazetteer或者是句法词法特征,当词典穷尽的时候,这种分类方法是正确的,但通常具有较高的准确率,较低的召回率,并且字典信息不能转移!

(2)非监督的学习方法

论文引用43 可以看看

(3)基于特征的监督学习方法

特征工程是很重要的。word-level featuresgazetteers文件和语料库特征在不同的NER 系统中被广泛应用,基于这些特征,很多机器学习算法被用在了这个上面,例如 SVM,Maximun Entropy,HMM,decision tree,CRF,

SVM does not consider “neighboring” words when predicting an entity label. CRFs takes context into account.

3.基于DL的一些方法

(1)为什么使用DL

DL 的主要优势是学习representation,然后经过neural processing生成一些semantic composition,受益于以下三个方面:

  • 非线性变换学习到一些困难的特征
  • 不需要费尽心思设计特征 不需要expertise
  • 使用gradient desent,设计复杂的构造
(2) 组成

在这里插入图片描述

3.2.1 输入的分布式表示

distributed representation captures semantic and syntactic properties of word

(1)word-level 表示
在大规模语料上训练的,可以固定也可以fine-tune
(2) character-level 表示

character-based word representations learned from an endto-end neural model

被认为有用,可以学习例如前后缀等信息,并且很好的处理了OOV问题。
可以利用的手段:CNN(先embedding 然后再CNN,产生一个representationRNN ELMo
(3) word representation 和 feature 结合

gazetteers [18], [107], lexical similarity [108], linguistic dependency [109] and visual features [110]) into the final
representations of words,
另外可用的还有 pos tag chunk word-shape vector
syntactical word representation (i.e., POS tags, dependency roles, word positions, head positions) to form a comprehensive word representation.

3.3.2 Context Encoder Architectures

主要包括convolutional neural networks, recurrent neural networks,recursive neural networks,and deep transformer.

(1)CNN
生成gloabl representation
列举一种构造:LSTM 捕捉long-term dependencies,并获得代表整个句子的representation,CNN 用来学习更high-level representation,然后被喂到一个sigmoid 分类器中,然后 sentence representation 和 sigmoid后的relationship reprensentation被喂到另一个lstm中去预测输出

(2)RNN
引用18 利用了LSTM-CRF 来做一些序列标注任务,例如 pos tag,chunking NER。
一个例子:使用GRU 在character level 和 word-level representation 来编码形态学和context特征

nested named entity:识别出的实体存在嵌套的情况。
比如 北京大学 不仅是一个组织,同时 北京 也是一个地点;雅诗兰黛小棕瓶 是一个产品,同时 雅诗兰黛 是一个品牌。

(3)recursive NN

Recursive neural networks are non-linear adaptive models that are able to learn deep structured information, by
traversing a given structure in topological order

传统的序列标注任务很少把 句子的 词语结构考虑在内,
一个例子:递归地计算每个 node 的representation,分 bottom-up和 top-down两个representation

(4)Neural Language Models
什么是 language model:

a family of models describing the generation of sequences
Given a token sequence, (t1, t2, . . . , tN )
a forward language model computes the probability of the
sequence by modeling the probability of token tk given its
history (t1, . . . , tk 1) [21]:
p(t1, t2, . . . , tN ) =累乘(k从1到n)p(tk|t1, t2, . . . , tk 1)

language model 如何应用到NER中。

  1. final languge model embedding
  2. 添加了一个次要additional language modeling objective目标,学习被优化来学习当前的单词,当前的tag,下一个单词
  3. a language model augmented sequence tagger
    考虑预训练word embedding 和双向的 laguage model embedding
    多任务学习:

The language model and sequence tagging model share the same character-level layer in a multi-task learning manner

(4) deep transformer model
neural sequence labeling model 通常包括复杂的CNN RNN的encoder 和decoder
基于transformer ,有了 GPT(Generative Pre-trained Transformer ) Bert Elmo

ahieved promising performance via leveraging the
combination of traditional embeddings and language model
embeddings.

这些使用基于transformer预训练的语言模型嵌入已经成为了NER的范式,

  • 首先,这些embedding是基于上下文的,可以用来替代word2vec,
  • 其次,这些embedding加上一些例如NER、chunking等的下游任务,可以被微调,
3.3.3 Tag Decoder Architectures

. It takes context-dependent representations as input and produce a sequence of tags corresponding to the input sequence.

  1. Multi-Layer Perceptron + Softmax
    multi-class classification problem,基于context representation,每一个单词的tag被独立预测,没有将邻居考虑在内
  2. Conditional Random Fields
    crf 不能充分利用segment-level information,因为inner-segment information 不能被 word-level representation 充分编码
  • 一个例子:

adopts segments instead of words as the basic units for feature extraction and transition modeling.Word-level labels are utilized in deriving segment scores

  1. RNN

serve as a language model to greedily produce a tag sequence

  1. pointer network
    没看懂

4.总结

目前在conll03的结果:

The method [131] which pre-trains a bi-directional Transformer model in a cloze-style manner, achieves the state-of-the-art performance (93.5%) on CoNLL03.
还有另外很多的数据集哦!

  1. fine-tune pre-trained laguage model embeddings have become a new paradigm,input representation 非常重要
    尽管如此NER onnoisy data(e.g., W-NUT17) remains challenging.
  2. 尚无关于如何融合外部知识(gazetters)进入NER 的定论,但毫无疑问,外部知识的加入会影响端到端的学习,并且伤害系统的泛化能力generality
  3. 当transformer已经在大预料上跑过的时候,并且当训练数据足够的时候,transformer会是一个更好的encoder, 还有一个说法是complexities,transformer 和RNN对比

Transformers fail on NER task if they are not pre-trained
and when the training data is limited

4.greedily decoding是RNN decoder 的一个问题,难以并行化并且速度慢
4. CRF是最通用的 decoder,当使用 non-contextualized embedding ,例如 word2vec 和glove时,CRF 可以有效 capture label transition dependencies.
但是当使用contextualized language model embeddings时,CRF却不见得比softmax好
5. 如果拥有大数据,从头训练RNN 和fine-tune LM embedding 可取,但如果数据比较少,建议是有迁移策略,
6. 中文NER

a cross-lingual setting by transferring knowledge from a source language to a target language with few or no labels.

引用 119 Y. Wu, M. Jiang, J. Lei, and H. Xu, “Named entity recognition inchinese clinical text using deep neural network,” MEDINFO, pp.624–628, 2015.
引用 148 Q. Wang, Y. Zhou, T. Ruan, D. Gao, Y. Xia, and P. He, “Incorporating dictionaries into deep neural networks for the chinese clinical named entity recognition,” J. Biomed. Inform., vol. 92, 2019.

5.最近应用于NER 的一些方法

  1. Deep Multi-task Learning for NER
    学习一组相关的任务的方法,通过考虑这些任务间的关系,多任务学习应该能比学习单个任务取得更好的结果
  • 例如一起学习 chunk pos ner,这种多任务的机制让模型学到对所有任务都有用的internal representation
  • 例如,通过添加一个非监督的语言模型目标,序列标注任务的表现实现了持续提高

2. Deep Transfer Learning for NER
Transfer Learning旨在在一个机器学习算法在目标领域训练时,充分利用在源领域学到的知识,通常也叫做domain adaptation,通常传统的方法是通过bootstrapping,最近一些新的深度学习方法已经被提出来,low-resource and across- domainNER任务中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值