数学之美
最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。
ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。
第四章 谈谈分词
1 中文分词方法的演变
最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。
随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。
郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出现的概率最大。里面涉及到动态规划和维特比算法,有张图表示过程:
这里提到:统计语言模型很大程度是依照‘’大众的想法‘’,或者说‘’多数句子的用法‘’,百分百是不可能的。