论文学习 -- Attending to Characters in Neural Sequence Labeling Models

2016 COLING 的一篇文章,在序列标注的框架里,同时使用character级别的embedding和word级别的embedding

并且在两种embedding之间使用attention的机制结合

序列标注模型: BI-LSTM + CRF, 有一个问题不太理解:

为什么这里要加一个层,解释的理由不是太理解。

loss function是最小化负的正样本的log概率,概率是CRF得到的

加上character level的embedding,并用attention将两个结合的模型图是:

x是word embedding,m是有BI-LSTM得到的character级别的embedding,跟前面一样,在双向hidden state被concate以后还接了一层得到embedding m,然后x 和 m被feed到attention里面:

并且在loss中加了一项,对于词表中的高频词,希望charater embedding是能学到embedding的,但这个约束只针对在词表内的词。

加上charater embedding主要的好处就是处理OOV

论文:http://www.aclweb.org/anthology/C16-1030

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值