一、前言
新词识别,也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分,下文均以新词指代。
在之前的博文中提到,中文分词中存在两个问题,未登录词识别和歧义切分,具体在《统计自然语言处理》中提到,中文分词有98%的错误来自未登录词,相比之下未登录词识别比歧义切分更需要关注。
二、概述
1、新词
参照前人的研究,新词主要可以分为以下三类:
(1)时间词和数量词
(2)命名实体
(3)普通新词
时间词和数量词也可以包含在命名实体中,在之前的博文中介绍过相关内容,这里主要介绍普通新词。
普通新词存在许多构词方式,参照《现代汉语新词资讯电子词典》的分类方法,主要分为以下类别:
崔【1】通过对大量的语料分析,得到如下新词构词模式: