《数学之美》总结(第4章~第5章)

第四章 谈谈中文分词

       采用“查字典”方式的分词技术最早是由北京航天航空大学的梁南元教授提出的,我研究生期间看的第一篇论文也是这个,有点儿历史……
       后来,中国内地,第一个自觉使用统计学模型对自然语言进行分词的是清华大学电子工程系的郭进,也是个搞通信的……
       基于统计的分词技术和第三章提到的那几个公式类似,通过分词,产生不同的分词序列,再将这些序列进行概率比较,最后概率最大的就是最好的分词结果。例如一个待分词序列,产生了如下三种分词情况:

A1A2A3A4Am
B1B2B3B4Bn
C1C2C3C4Ck

       通过语料库的统计,可以知道三种序列的出现频度,当语料库具有一定规模之后,根据大数定理就可以知道三种序列的概率,假设三种概率分别为 Pa Pb Pc ,且存在大小关系 Pa>Pb>Pc ,那我们就说序列 A1A2A3A4Am 是最佳分词结果。

第五章 隐含马尔科夫模型

       这一章可就厉害了……
       等我再整理整理……

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值