Chinese Lexical Analysis with Deep Bi-GRU-CRF Network
百度自然语言处理部的一篇论文,提出了一个结合分词,词性标注和命名实体识别的工具。
论文指出百度已经开发了各种分词,词性标注,实体识别的工具,相互独立以便各个团队使用。这种方式有两个缺点:
重复计算太多,严重拖慢了计算速度吗,浪费计算资源
不同任务之间不能share一些特征,比如分词的时候可以用到一些词性标注的特征,来更好地优化分词。
笔者提到在使用百度AI平台实现一个词法分析系统时,对于不同的子任务,不仅要写各种复杂的逻辑结构来保证模型的性能,而且由于子任务的并行使得计算很慢。
由于词法分析三种任务都可以看做是序列化标注,所以作者想只用单个模型来解决这些问题。作者首先在平台上用query和news和title收到平行语料(pseudo-annotated 伪标注语料)(这里收集应该是使用百度原有的一些工具标注出来的)应该标注准确率不够高,再拿到一些人工标注的语料(质量较高)。合并为训练语料,使用Bi-GRU-CRF模型训练,并在训练过程中使用(oversampled)的方法确保标注的高质量语料对模型训练起更大的影响。
作者还使用训练好的标签转移来fine-tune微调crf的解码过程,感觉就是半监督的方法了,
因为原有数据质量并不高。
模型的有点:完全的端到端,character-based embedding,没有任何人工特征组合。
论文使用IOB2-style decoration的标注体系,应该就是动作标签中包含分词,词性标注中的各种tag。能够一下就把三个任务都做完,在第三方语言学专家标注的500句新闻语料上得到的结果准确率是95%(应该是三种标签),速度也变的更快了。(样本有点小,具体效果得看下)
<
本文探讨了百度自然语言处理部的论文,提出了一种结合分词、词性标注和命名实体识别的深度学习模型——Bi-GRU-CRF网络。通过使用单一模型解决传统方法中的重复计算和特征共享问题,实现了端到端的词法分析。在特定语料上,模型达到了95%的准确率,同时提高了效率。
最低0.47元/天 解锁文章
1229

被折叠的 条评论
为什么被折叠?



