《数学之美》总结(第4章~第5章)

西单小六

于 2017-03-12 22:41:09 发布

阅读量293

点赞数 1

分类专栏：机器学习文章标签：自然语言机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010497711/article/details/61668360

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第四章谈谈中文分词

采用“查字典”方式的分词技术最早是由北京航天航空大学的梁南元教授提出的，我研究生期间看的第一篇论文也是这个，有点儿历史……
后来，中国内地，第一个自觉使用统计学模型对自然语言进行分词的是清华大学电子工程系的郭进，也是个搞通信的……
基于统计的分词技术和第三章提到的那几个公式类似，通过分词，产生不同的分词序列，再将这些序列进行概率比较，最后概率最大的就是最好的分词结果。例如一个待分词序列，产生了如下三种分词情况：

A1A2A3A4……Am $A_1A_2A_3A_4……A_m$

B1B2B3B4……Bn $B_1B_2B_3B_4……B_n$

C1C2C3C4……Ck $C_1C_2C_3C_4……C_k$
通过语料库的统计，可以知道三种序列的出现频度，当语料库具有一定规模之后，根据大数定理就可以知道三种序列的概率，假设三种概率分别为

Pa $P_a$ 、

Pb $P_b$ 和

Pc $P_c$ ，且存在大小关系

Pa>Pb>Pc $P_a>P_b>P_c$ ，那我们就说序列

A1A2A3A4……Am $A_1A_2A_3A_4……A_m$ 是最佳分词结果。

第五章隐含马尔科夫模型

这一章可就厉害了……
等我再整理整理……

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数学之美》总结(第4章~第5章)

第四章谈谈中文分词没啥好谈的，还是一些概念。采用“查字典”方式的分词技术最早是由北京航天航空大学的梁南元教授提出的，我研究生期间看的第一篇论文也是这个，有点儿历史…… 后来，中国内地，第一个自觉使用统计学模型对自然语言进行分词的是清华大学电子工程系的郭进，也是个搞通信的…… 基于统计的分词技术和第三章提到的那几个公式类似，通过分词，产生不同的分词序列，再将这些序列进行概率比较，最后概
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。