【论文笔记】Neural Architectures for Named Entity Recognition

NER的深度学习方法:最经典最state-of-the-art的模型就是LSTM+CRF

本文最大的特点是应用pre-trained word embedding,以及character-based word embedding,更好的捕捉到了形态和正交的信息。


以下是CRF层训练模型,数据流动图,以及训练过程中计算scores的大致流程,在infer新的word’s label时,previous略有修改。

作者提出了一种使用小数据量的监督数据结合大量无标注语料的训练模式,使用biLSTM+crf的模型进行训练。 本方法的一个特点是jointly,即对句子进行序列标注时,词之间的label不是独立的,而是考虑previous词的标签信息进而标记obvious的tag.

Tagging Schemes 

使用IOBES,Inside,Outside,Beginning,End,Singel。

Word-embedding(Character-based models of words

本论文最大的特点是,在训练中学习字粒度特征,而不是手工建立单词前缀和后缀信息的特征工程。 学习字粒度的embedding有利于学习特定任务或者特定领域中的表示(representation)。

(1)字符查找表是随机初始化的,包含了每个字符的embedding。通过一个双向lstm将word中的每个character相关联起来,正向lstm得到character embedding的正向序列,反向lstm得到反向序列。

(2)从双向lstm得到正向和反向的character embedding序列,拼接起来得到一个word embedding,这个embedding是字粒度(character-level)。 

(3)  最后将(2)中字粒度的word embedding与词粒度的embedding拼接起来得到最后的embedding。词粒度的embedding是通过查找word lookup-tabel得到。

 Dropout training

初始实验表明,当与词粒度的embedding并接后,字粒度的embedding并没有对性能发生改变。为了使模型能够充分利用这两种表示,加入了dropout层。在最后的embedding后,在输入到lstm模型前加dropout层。 dropout给模型性能带来了很大改进

 

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值