[1] Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF
Yan Shao et al.
Uppsala University, University of Helsinki
IJCNLP 2017
http://www.aclweb.org/anthology/I17-1018
这篇论文提出一种基于字符的模型,用于中文分词和词性标注。该模型框架基于双向RNN-CRF,可以用于序列标注,这种模型可以捕捉丰富的上下文信息并且可以采集子词级别的特征。
网络结构如下
加入上下文信息的词向量拼接示例如下
该论文中还利用卷积神经网络对每个字提取拼写特征
网络中的超参数如下
数据集信息统计如下
算法效果示例如下
跟其他模型对比结果如下
耗时统计信息如下
数据集分割示例如下
单个模型跟集成模型结果对比如下
代码地址
https://github.com/yanshao9798/tagger
我是分割线
[2] Neural Word Segmentation Learning fo