数学之美阅读笔记(1)

本文是数学之美阅读笔记的一部分,主要探讨统计语言模型在自然语言处理中的应用,如二元模型和N元模型。此外,还介绍了信息熵的概念及其在消除不确定性中的作用。文中提及香农的信息熵和互信息理论,并简述了布尔代数在搜索引擎中的应用,以及图论在网络爬虫中的深度优先和广度优先搜索策略。最后,提到了PageRank算法作为衡量网页质量的经典方法。
摘要由CSDN通过智能技术生成

大一的时候就开始看吴军博士第一版的《数学之美》,苦于那时年少无知不懂事,加上自身数学知识的体系不健全,翻着翻着也就没有了后文。现在读了研究僧,也许是换了个视野,看到书的开头“中国教育最失败的就是学生从上课的第一天到考试结束,都不知道学的东西能干什么。”,果然是大实话,私以为学习的原动力在于内心的诉求,当有应用的需求时,学习起来就会更带劲。趁着在校时光,安安静静读读书写写字,所以决定将这本书的精髓地方整理整理形成笔记,健忘症发作时就可以随手看看电子版。

1.统计语言模型

基于统计语言的数学模型是自然语言处理(NLP)的基础,贾里尼克的出发点是:一个句子是否合理,看它出现的可能性大小。假定S表示一个有意义的句子,且由一连串顺序排列的词组成(英文中有空格隔开,中文则需要进行分词),出现的可能性则是计算P(S),若直接使用频数统计S在所有语料库中出现的概率,则肯定行不通,利用条件概率展开P(S):

这里写图片描述

从计算来看,计算前几个条件概率还十分容易,但到了后面根本无法进行估算。俄国的马尔科夫提出了一种偷懒的方法,即假设任意一个词出现的概率只和它前面的那个词有关。这样P(S)就变得十分简单:

这里写图片描述

这就是统计语言模型中的二元模型(Bigram Model),如果假设一个词由前面的N-1个词决定,则成为N元模型。接下来计算则变得十分美妙:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值