中文分词存在的问题是分词规范(怎么才算是一个词)和歧义切分(交集型歧义:结合成且为结合|成、结|合成。组合型歧义:他站|起|身|来。他明天|起身|去北京。),以及未登录词,如中文名准确率较高,外文译名准确率很低,地名可以由词表解决,组织机构名词表可以解决部分。
分词方法总的分为基于词表和基于统计和规则。
正向最大匹配、逆向最大匹配法、双向扫描、逐词遍历法都是基于词表的。基于词表可以解决普通词汇分词问题,此外可以针对歧义切分,有N-最短路径(先基于词表粗分,由词构有向无环图,dijkstra贪心找最短路径,包含最优词序)、HMM隐马尔科夫(初始状态(词性)概率矩阵、状态转移矩阵(词性到词性)、从状态(词性)观察到输出符号(单词)的概率矩阵)、基于三元统计模型的分词、字构词。
未登录词有两类:新词或专业术语词(先词表,后人工)
实体名词和专有名词。这一类词的词次占8.7%,引起错误分词占59.2%,这类词是这机器翻译、信息检索、文本分类和信息提取的关键问题。主要专有名词问题和效果顺序:外国译名、中国人名、地名、组织机构名。解决方法:基于规则(专有名词库和人工归纳规则)和机器学习(基于HMM、最大熵、错误驱动)。
基于多特征的命名实体识别模型由词形上下文模型p(WC)、词性上下文模型P(TC)、实体词形模型、实体词性模型。