《数学之美》—统计语言模型

摘要和理解:

  1. S表示一个有意义的句子,由一连串特定序列的词w1,w2,w3...,wn组成,n表示句子的长度。

        S出现的概率: P(S) = P(w1,w2,w3...,wn)

              条件概率—P(S) = P(w1) * P(w2|w1) * P(w3|w1,w2)...*P(wn|w1,w2...,wn-1)

      马尔科夫假设—P(S) = P(w1) * P(w2|w1) * P(w3|w2)...P(wi|wi-1)*P(wn|wn-1)         ——二元模型

              P(wi|wi-1) = P(wi,wi-1)|P(wi-1)  P(wi,wi-1)-联合概率 P(wi-1)-边缘概率

    2.N元模型

    3.模型的训练-使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练。统计语言的零概率问题-不平滑

    4.古德-图灵估计:对于没有看见的事件,我们不能认为它发生的概率就是零,因此我们从概率的总量中,分配一个很小的比例给这些没有看见的事件。

        

                                               

 

 

 

 

   5.训练数据-语料库的选取:噪音高低、过滤

转载于:https://my.oschina.net/xiaomu1994/blog/1491971

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值