第四章 谈谈中文分词
采用“查字典”方式的分词技术最早是由北京航天航空大学的梁南元教授提出的,我研究生期间看的第一篇论文也是这个,有点儿历史……
后来,中国内地,第一个自觉使用统计学模型对自然语言进行分词的是清华大学电子工程系的郭进,也是个搞通信的……
基于统计的分词技术和第三章提到的那几个公式类似,通过分词,产生不同的分词序列,再将这些序列进行概率比较,最后概率最大的就是最好的分词结果。例如一个待分词序列,产生了如下三种分词情况:
B1B2B3B4……Bn
C1C2C3C4……Ck
通过语料库的统计,可以知道三种序列的出现频度,当语料库具有一定规模之后,根据大数定理就可以知道三种序列的概率,假设三种概率分别为 Pa 、 Pb 和 Pc ,且存在大小关系 Pa>Pb>Pc ,那我们就说序列 A1A2A3A4……Am 是最佳分词结果。
第五章 隐含马尔科夫模型
这一章可就厉害了……
等我再整理整理……