数学之美~阅读

本文深入探讨了数学在自然语言处理中的应用,包括统计语言模型、中文分词、隐马尔科夫模型、信息熵、布尔代数在搜索引擎中的作用、图论在网络爬虫中的应用以及信息指纹技术。通过这些数学原理,解决了诸如文本分类、网页相关性确定和地址识别等问题,揭示了数学在信息处理领域的强大威力。
摘要由CSDN通过智能技术生成

数学之美


目录


1. 统计语言模型

  假设一个有意义的句子 S 由词 w1,w2,...,wn 组成,则句子 S 出现的概率可以表示为:

P(S)=P(w1)P(w2|w1)P(w3|w2,w1)P(wn|wn1,wn2,...,w1)

  从上式看出,一个词出现的概率取决于前面所有的词,然而从计算上来看,各种可能性太多,无法实现,所以可以假设一个词出现的概率只与其前一个词有关(即马尔科夫假设~ 注意,该假设为何有效?),上式可以进行进一步得到:

P(S)=P(w1)P(w2|w1)P(w3|w2)P(wn|wn1)

  计算 P(wn|wn1) 可以使用贝叶斯公式 P(wn)=P(wn,wn1)P(wn1) ,利用统计语言模型可以先得到在统计的文本中 (wn,wn1) 出现了多少次,以及 wn1 出现多少次,两个次数之比即可得到结果。

  统计语言模型比任何已知的借助某种规则的方法都有效!

贝叶斯公式: P(A|B)=P(A,B)P(B),P(A,B)=P(B|A)P(A)


2. 谈谈中文分词

  统计语言模型是建立在词的基础之上的,对于中日韩等语言,首先应该进行分词。如“中国航天官员应邀到美国与太空总署官员开会”。分成一穿词:中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会
  我们可以想到的最简单的分词方式是查字典,从左到右扫描句子,碰到一个词典中有的词就标识出来,遇到复合词(如:“上海大学”)就找词匹配,遇到不认识的字串就分割成单字词。然而这种分词方法缺点是不能处理二义性的分割(如:“发展中国家”被分割成“发展-中国-家”)。
  90年代后,清华的郭进博士用统计语言模型成功解决二义性问题,将汉语分割的错误率降低一个数量级。上面一堆都是铺垫,,,重点来了,该方法用数学公式简单概括如下:
  假定句子 S 有以下几种分词方法:
  - A1,A2,A3,...,Am
  - B1,B2,B3,...,Bn
  - C1,C2,C3,...,Ck
  最好的一种方法应该保证分完词后该句子出现的概率最大,也就是说如果 A1,A2,A3,...,Am 是最好的分词方法,则

P(A1,A2
数学之美》是作者吴军博士创作的一本关于数学的书籍。在这本书中,吴军博士通过重写文章,将高深的数学原理讲解得更加通俗易懂,让非专业读者也能领略数学的魅力。读者可以通过具体的例子学习思考问题的方式,学会如何化繁为简,如何用数学去解决工程问题,以及如何跳出固有思维不断去思考创新。这本书曾在谷歌黑板报上发表,获得了上百万次点击,并得到读者的高度评价。读者反馈说,在阅读数学之美》后,他们发现大学时学的数学知识,如马尔可夫链、矩阵计算以及余弦函数等,都变得更加亲切和生动,同时也发现了自然语言和信息处理的有趣之处。 很遗憾,没有找到《数学之美》的具体PDF版本的信息。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [数学之美 (第二版) pdf](https://blog.csdn.net/weixin_30817749/article/details/95759046)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [经典计算机图书:之美系列](https://blog.csdn.net/qq_35764955/article/details/70194584)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值