Chinese Lexical Analysis with Deep Bi-GRU-CRF Network
百度自然语言处理部的一篇论文,提出了一个结合分词,词性标注和命名实体识别的工具。
论文指出百度已经开发了各种分词,词性标注,实体识别的工具,相互独立以便各个团队使用。这种方式有两个缺点:
重复计算太多,严重拖慢了计算速度吗,浪费计算资源
不同任务之间不能share一些特征,比如分词的时候可以用到一些词性标注的特征,来更好地优化分词。
笔者提到在使用百度AI平台实现一个词法分析系统时,对于不同的子任务,不仅要写各种复杂的逻辑结构来保证模型的性能,而且由于子任务的并行使得计算很慢。
由于词法分析三种任务都可以看做是序列化标注,所以作者想只用单个模型来解决这些问题。作者首先在平台上用query和news和title收到平行语料(pseudo-annotated 伪标注语料)(这里收集应该是使用百度原有的一些工具标注出来的)应该标注准确率不够高,再拿到一些人工标注的语料(质量较高)。合并为训练语料,使用Bi-GRU-CRF模型训练,并在训练过程中使用(oversampled)的方法确保标注的高质量语料对模型训练起更大的影响。
作者还使用训练好的标签转移来fine-tune微调crf的解码过程,感觉就是半监督的方法了,
因为原有数据质量并不高。
模型的有点: