论文笔记《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》

Chinese Lexical Analysis with Deep Bi-GRU-CRF Network

百度自然语言处理部的一篇论文,提出了一个结合分词,词性标注和命名实体识别的工具。
论文指出百度已经开发了各种分词,词性标注,实体识别的工具,相互独立以便各个团队使用。这种方式有两个缺点:

  • 重复计算太多,严重拖慢了计算速度吗,浪费计算资源

  • 不同任务之间不能share一些特征,比如分词的时候可以用到一些词性标注的特征,来更好地优化分词。

笔者提到在使用百度AI平台实现一个词法分析系统时,对于不同的子任务,不仅要写各种复杂的逻辑结构来保证模型的性能,而且由于子任务的并行使得计算很慢。

由于词法分析三种任务都可以看做是序列化标注,所以作者想只用单个模型来解决这些问题。作者首先在平台上用query和news和title收到平行语料(pseudo-annotated 伪标注语料)(这里收集应该是使用百度原有的一些工具标注出来的)应该标注准确率不够高,再拿到一些人工标注的语料(质量较高)。合并为训练语料,使用Bi-GRU-CRF模型训练,并在训练过程中使用(oversampled)的方法确保标注的高质量语料对模型训练起更大的影响。

作者还使用训练好的标签转移来fine-tune微调crf的解码过程,感觉就是半监督的方法了,
因为原有数据质量并不高。

这里写图片描述
模型的有点:

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值