基于卷积注意力神经网络的命名实体识别(CAN-NER)

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition(NAACL-HLT 2019)

论文要点

该论文提出过去基于词向量和词典中的几个问题:

  1. 模型结果会受词向量和词典覆盖好坏的影响【迁移问题】
  2. 会存在OOV的问题,而命名实体大多为OOV
  3. 词向量会极大增大模型大小【Embeddings Size一直是大头】,使得Finetune训练更难
  4. 没有足够大量的标注数据难以学习好词向量
  5. 大词典会占用大内存和耗时用于特征计算【额,这个应该影响很小】
  6. 词典太大时,难以清除词典中的脏数据【确实很多是noise word】
  7. 词向量和词典训练后难以更新【这个关键】

模型框架

 

  • Convolutional Attention Layer
  1. 目的在于encode char和潜在词【encode the sequence of input characters and implicitly group meaning- related characters in the local context】
  2. 每个字符x=[char ; BMES;pos]组成
  3. 感觉文章表述的Conv Attention就是一个窗口大小为kernel size的Local的Self-Attention而已:

          attention权值由输入emb计算

           得到权值后对emb进行加权求和,就是这一层的输出了

             然后这里说有多个kenel,结果算完后进行sum-pool,但感觉也就是一个multi-head

  • BiGRU-CRF with Global Attention
  1. 卷积层后的输出作为BiGRU的输入
  2. BiGRU输出后加一层最经典的Attention层【在机器翻译Attention那篇经典文章的】
  3. 然后拼接BiGRU输出和Attention输出,经线性变换后输入CRF

模型效果

 

模型优缺点

  1. 文章没有使用word emb,而是直接使用分词边界BMES作为char的特征输入到模型中,确实有一定的作用,不过,这样模型是要基于分词的,这又与基于词典的模型不同
  2. 感觉这里的Attention只是为了强行套上去的,尤其是最后一层BiGRU还要加Attention,实验也没说明这个作用体现在哪?
  3. 而在效果上,其实这个模型对比Lattice-LSTM提升很小
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值