0 新词识别的任务
-
候选新词的提取
由于中文是由单个语素无间隔的组合形成,理论上来说,任意语素之间都有结合形成一个词或单语素成词的可能,因此词语边界的确定就成为一个问题,当然这也是需要中文分词的原因。
-
候选新词的过滤
对于候选新词,用什么标准判断这是一个符合条件的词,即是候选字符串必须是“新”的且能称为一个“词”
-
新词的词性猜测
1 基于规则的新词识别
基于规则的方法一般通过语言专家根据构词学原理、配合语义信息或词性信息来构造模板,然后匹配新词。
优点:准确率高, 针对性强,
缺点:手工编写和维护规则困难 且规则一般是领域相关的, 所以适应性和移植性比较差
目前不常直接使用规则,更多的是作为一个附加模块与其他方法相结合,如在候选词过滤中,作为垃圾串的过滤模块使用。
2 基于统计的新词识别
通过对语料中的词条组成或特征信息进行统计来识别新词
优点:灵活、适应能力强, 可移植性好,
缺点:需要大规模语料进行模型训练, 由于使用的语言知识较少, 一般都存在数据稀疏和准确率低的问题。
目前大部分研究者使用规则和统计相结合的方法, 来取长补短。
3 基于规则与统计相结合的方法
3.1 监督方法
在大规模训练语料的支持下, 将候选新词提取问题转化为分类或标注问题
监督方法的模型有很多,如:基于普通统计特征(将候选新词识别问题看作分类问题, 使用统计特征, 如共现频率、独立词概率等作为分类标准, 来区分新词和非新词)、基于隐马尔科夫模型 (HMM)、基于决策树 (DT)、基于支持向量机模型 (SVM)、基于最大熵模型 (ME) 、条件随机域模型 (CRF)等
优点:在技术上相对成熟, 产生的垃圾串较少, 识别准确率较高, 对于低频词有更好的识别效果, 适用于在线的新词识别
缺点:需要大规模训练语料或进行复杂的语料处理, 前期准备工作复杂。
3.2 无监督方法
无监督方法没有大规模标注语料,一般利用候选字符串的统计信息,设定阈值进行判别。这种情况下的候选字符串都是在无监督的方式下得到的,因此需要进行大量的过滤操作,得到相对纯净的候选新词。
无监督方法的模型有:基于启发规则、基于普通重复串统计方法、基于高效的重复串统计算法
优点:对新造词识别效果好, 而且新词长度不受限制, 无需大规模训练语料支持
缺点:低频新词的召回效果较差, 特别是只出现一次的新词。由于提取候选串没有监督, 垃圾串较多, 需要复杂的过滤方法, 因此, 其效率不高, 不适合在线新词抽取。
参考
- 新词发现:中文新词识别技术简介 https://blog.csdn.net/sinat_33741547/article/details/81704798
- 中文新词识别技术综述 https://kns.cnki.net/KXReader/Detail?TIMESTAMP=637513600272547421&DBCODE=CJFD&TABLEName=CJFD2010&FileName=JSJA201003005&RESULT=1&SIGN=192s9QYukBmh8oqbA1xeYnAuEb0%3d