数学之美阅读笔记（1）

最新推荐文章于 2021-02-03 13:29:39 发布

努力进行光合作用

最新推荐文章于 2021-02-03 13:29:39 发布

阅读量5.2k

点赞数 3

分类专栏：学习文章标签：数学数学之美-吴军吴军数学之美笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011826404/article/details/70314602

版权

本文是数学之美阅读笔记的一部分，主要探讨统计语言模型在自然语言处理中的应用，如二元模型和N元模型。此外，还介绍了信息熵的概念及其在消除不确定性中的作用。文中提及香农的信息熵和互信息理论，并简述了布尔代数在搜索引擎中的应用，以及图论在网络爬虫中的深度优先和广度优先搜索策略。最后，提到了PageRank算法作为衡量网页质量的经典方法。

摘要由CSDN通过智能技术生成

大一的时候就开始看吴军博士第一版的《数学之美》，苦于那时年少无知不懂事，加上自身数学知识的体系不健全，翻着翻着也就没有了后文。现在读了研究僧，也许是换了个视野，看到书的开头“中国教育最失败的就是学生从上课的第一天到考试结束，都不知道学的东西能干什么。”，果然是大实话，私以为学习的原动力在于内心的诉求，当有应用的需求时，学习起来就会更带劲。趁着在校时光，安安静静读读书写写字，所以决定将这本书的精髓地方整理整理形成笔记，健忘症发作时就可以随手看看电子版。

1.统计语言模型

基于统计语言的数学模型是自然语言处理（NLP）的基础，贾里尼克的出发点是：一个句子是否合理，看它出现的可能性大小。假定S表示一个有意义的句子，且由一连串顺序排列的词组成（英文中有空格隔开，中文则需要进行分词），出现的可能性则是计算P（S），若直接使用频数统计S在所有语料库中出现的概率，则肯定行不通，利用条件概率展开P（S）：

这里写图片描述

从计算来看，计算前几个条件概率还十分容易，但到了后面根本无法进行估算。俄国的马尔科夫提出了一种偷懒的方法，即假设任意一个词出现的概率只和它前面的那个词有关。这样P(S)就变得十分简单：

这里写图片描述

这就是统计语言模型中的二元模型（Bigram Model）,如果假设一个词由前面的N-1个词决定，则成为N元模型。接下来计算则变得十分美妙：

最低0.47元/天解锁文章

努力进行光合作用

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。