中文分词:统计语言模型在中文处理中的一个应用
前一篇文章(数学之美笔录(1):统计语言模型)我们提到使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位。西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单。而对于汉语等东方语言,词之间没有明确的分界符(比如:我颜值很高。没有像英文一样的空格之类的分界符),这就需要先对句子进行中文分词。
例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:
中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。
中文分词最简单的方式是查字典,这种方式最早由北京航空航天大学的梁南元教授提出。简单的来说,就是把一个句子从左到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配, 遇到不认识的字串就分割成单字词。
八十年代,哈工大的王晓龙博士把它理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性 (有双重理解意思)的分割时就无能为力了。比如,对短语 “发展中国家” 正确的分割是“发展-中-国家”,而从左向右查字典的办法会将它分割成“发展-中国-家”,显然是错了。另外,并非所有的最长匹配都一定是正确的。比如“上海大学城书店”的正确分词应该是 “上海-大学城-书店,” 而不是 “上海大学-城-书店”。
90年前后,清华大