数学之美——统计语言模型

  • 贾里尼克的出发点很简单:一个句子是否合理,就要看它的可能性大小如何,至于可能性就用概率来衡量。
  • 马尔可夫提出了一种偷懒但还颇为有效的方法,假设任意一个词Wi出现的概率只同它前面的词Wi-1有关,这种假设在数学上称为马尔可夫假设。
  • 高阶语言模型,N-1阶马尔可夫假设等。
  • 实际应用中最多的是N=3的三元模型,更高阶的很少使用。
  • 模型的训练,零概率问题和平滑方法。
  • 古德-图灵估计的原理:对于没有看见的事件,我们不能认为它发生的概率为0,因此我们从概率的总量中分配一个很小的比列给这些没有看见的事件。“越是不可信的统计折扣越多”。
  • Zipf定律。
  • 估计二元模型概率公式如下:

  • 对于三元模型类似。 
  •  

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值