《数学之美》总结(第1章~第3章)

第一章 文字和语言 vs 数学和信息

       本章主要介绍了各种概念,属于基础知识预备的角色,没有什么好说的,虽然没什么所谓的干货,但知识量也不少。

第二章 自然语言处理——从规则到统计

       本章提出了从规则到统计的自然语言处理的发展历史,从而引出了数学在自然语言处理中的重要地位。

第三章 统计语言模型

3.1 二元模型

       对于给定的一个句子,我们如何判断这个句子能不能称之为一个“句子”呢,为了解决这个问题,科学家提出了各种方法。

       如基于规则的,通过一定的规则判断所给的句子是否符合已有规则,这种方式简单,但并不灵活,一旦出现新的句型,就要对现有的语言规则库进行修改,而且自然语言表达方式灵活,我们不可能穷尽所有的规则。

       为了解决这个问题,贾里尼克提出了一个简单粗暴但又行之有效的解决方案,他认为,“一个句子是否合理,就看看它的可能性大小如何。”就这样,一个复杂的自然语言处理问题就转化为概率问题。

       假设 S 为给定的某一条句子由w1w2w3wn( wi 表示第 i 个单词或词汇)组成,即S=w1,w2,w3,,wn,要确定 P(S) 的值,根据概率公式可知

P(S)=P(w1,w2,w3,,wn)

       再根据条件概率公式,我们可以知道
       
P(w1,w2,w3,,wn)=P(w1)P(w2|w1)P(w3|w1,w2)P(wn|w1,w2,,wn1)

       其中 P(wi|w1,w2,,wi1) 在第 1 个到第i1个单词出现的情况下,第 i 个单词出现的概率。
根据我们学过的概率论知识可以知道P(wn|w1,w2,,wn)是难以计算的。以目前的计算机的计算能力,如果采用这个公式对语言进行处理,那将会是一件非常尴尬的事情。
       为了简化计算问题,在效率和准确度之间找到一个平衡点,伟大的数学家提出了统计语言学中的 二元模型概念。通过二元模型,上述公式被简化为
P(w1,w2,w3,,wn)=P(w1)P(w2|w1)P(w3|w2)P(wn|wn1)

       接下来的任务就是对 P(wi|wi1) 进行计算了,根据条件概率公式
P(A|B)=P(A,B)P(B)
可知
P(wi|wi1)=P(wi,wi1)P(wi1)

       通过对已有文本语料库的统计,根据大数定理, P(wi|wi1) P(wi1) 都可以计算出来。通过这样的逐一转化和问题简化,一个复杂的自然语言处理问题就变成了简单的概率论问题。
       上述模型即为二元模型,所谓的 N 元模型即计算n个词汇一起出现的概率。书中指出,当N 1 2,再从 2 3时,模型的准确度上升显著,但是当从 3 4时,效果的提升就不那么显著了。

3.2 零概率问题和平滑方法

       所谓了零概率问题就是由于语料库收集的不完备,导致某种情况下的概率出现了0,但在实际生活中却又可能出现这样的组合。为了改善这一问题,提出了平滑方法,目前已有的平滑方法有
       - 加一法(方法过于机械,不灵活)
       - 加法平滑法
       - 古德-图灵(Good-Turing)法
       - JM平滑法
       - Kneser-Ney法
       - Katz法
       上述几种方法中,当数据量适中时,Kneser-Ney表现最好,JM平滑法次之。当数据量较大时,Good-Turing法表现最好,Katz次之。
       在语料的选取上,并不是越多越好,而是有针对性的选取语料,专门的领域选择专门的语料,例如用《人民日报》的语料库对搜索引擎进行训练,得到的概率模型肯定不是最好的。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值