1. 什么是新词
现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如:
快的打车优惠券
英雄联盟怎么不可以打排位
“快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词(out-of-vocabulary, OOV)笼统地之未在词典中出现的词,序列标注方法HMM与CRF可以根据上下文很好地识别未登录词,但是这种模型缺乏领域自适应能力 [1]:
模型对训练语料所在领域的语言现象处理可能表现出较好的性能,但一旦超出领域范围或测试集与训练样本有较大差异,模型性能将大幅度下降。例如,在标注的大规模《人民日报》分词语料上训练出来的汉语词语自动切分模型的准确率可达96%左右,甚至更高,但在微博等非规范文本基础上训练出的分词性能至少要低5个百分点左右。在LDC汉语树库上训练出来的句法分析系统准确率可达86%左右,但在非规范网络文本上的分析准确率只有60%左右(宗成庆 2013)。统计模型对领域自适应能力的缺乏严重制约了该方法的应用。
因此,对于“快的”、“英雄联盟”这样最近才出来的词未能识别。我们定义新词为具有基本词汇所没有的新形式、新语