《数学之美》读书笔记

 简介

数学之美这本书深入浅出带你领略数学王国的魅力,一些小点子带给你带来颠覆性的认知。

第一章 自然语言

“语言是一种编码方式,而语法规则是编解码的算法”。当计算机一出现,就涉及两个认知方面的问题:

1)计算机能否处理自然语言;

2)处理方法与人类是否一致。

两个问题的答案都是肯定的。

第二章 自然语言处理NLP

从规则到统计

但一个较长的语句,文法规则的数量少说也有几万条,完整写出不切实际,而且这些规则写到后来会发现与前面的规则自相矛盾,为解决这些矛盾,又需要一批解释矛盾的语法规则。所以在上个世纪70年代,基于规则的句法分析(包括文法分析或者语义分析)很快就走到了尽头。

1970年以后出现的统计语言学使得自然语言处理重获新生。领导IBM华生实验室(T.J.Watson)的关键人物 弗里德里克·贾里尼克(Frederick Jelinek)首次采用统计的方法解决语音识别的问题,引起了自然语言处理界的轰动。

第三章 统计语言模型 

利用数学表示上下文相关的特性。“基于统计方法的核心模型是通信系统加隐含马尔可夫模型

一个句子,每一个出现的 字/词 都与之前或之后的 字/词 有关,而我们要做的就是估计这些 字/词 搭配的可能性。(比如:“发表”和“文章”搭配更合理,而“发掘”和“文物”更应该搭配)

假设S表示一个句子,w_{i} 表示组成S的词,那么(一种偷懒却有效的方法):

 

 二元模型(Bigram Model):若假设与前N-1个词有关,就称为N元模型,当N超过3个时将会变得非常复杂,效果也不是很好,因此实际上 N=3 才是使用最多最有效的方法,再往上就得不偿失,消耗资源不说,效果提升也不明显

下面的问题就是如何估计条件概率 P(w_{i}|w_{i-1})概率数据的数值与其准确性与其所取的语料库有很大的关系。基于大数定理,只要统计量足够,相对频度就等于概率。实际上便是词b和词a同时出现相邻的次数 \pi (w_{i-1},w_{i}),以及词b本身在同样的语料库中出现的次数  \pi (w_{i-1}),这两个数分别除以语料库大小 \pi ,就可以得到这些词或者二元组的相对频度:

P(w_{i-1}|w_{i})\approx \frac{\pi (w_{i-1},w_{i})}{\pi (w_{i-1})}
 

 第四章 分词 

利用统计语言模型分词的方法,假定一个句子S可以有几种分词的方法:那么最好的分词方法应该保证分完词后这个句子出现的概率最大。如此便可转化为如第三章的求解。

 第五章 隐含马尔可夫模型

第六章 信息的度量和作用

第七章 贾里尼克和现代语言处理

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值