搞了3个月,终于把CRF的中文分词标注工具做好了。算法很简单,只采用常用的B、M、E、S作为标注集,特征选择采用-1、0、1、-1&0、0&-1、-1&1 六种特征。训练语料采用1998年《人民日报》1月份的公开语料。 分词见效果图: 标注如下: