《数学之美》——第四章 个人笔记

本文是《数学之美》第四章的读书笔记,主要讨论中文分词的方法及其演变,包括北航的查字典方法、哈工大的最少词数理论和清华的统计语言模型。此外,还提及了分词结果的衡量标准,如一致性问题和词的颗粒度选择,并指出好的分词器应能支持不同层次的切分。
摘要由CSDN通过智能技术生成

                                           数学之美

最近在读《数学之美》这本书,做一下个人笔记。看的是PDF,看完后会买一本的哦!版权意识还是有的。

ps:图片文字都是这本书中的内容,侵权立删。会有点自己的理解。

第四章     谈谈分词

1 中文分词方法的演变

最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。

随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。

郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出现的概率最大。里面涉及到动态规划和维特比算法,有张图表示过程:


这里提到:统计语言模型很大程度是依照‘’大众的想法‘’,或者说‘’多数句子的用法‘’,百分百是不可能的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值