《数学之美》笔记3

第三章 统计语言模型

计算机处理自然语言,基本问题就是为自然语言这种上下文相关的特性建立数学模型,即统计语言模型。

3.1 用数学的方法描述语言规律

贾里尼克首次利用统计概率模型解决了语言识别问题,即利用不同句子出现的概率来判断句法是否正确。
条件概率的问题:根据前面所有词语推测后面的词语概率。
解决办法:马尔科夫假设(任一词语概率只跟前面一个词语相关),由此产生二元统计模型。
然后将二元的条件概率展开:
在这里插入图片描述
计算联合概率和边缘概率方法:利用语料库
根据大数定律:(利用数量表述)
在这里插入图片描述
统计语言模型的典型应用:Google的Google Voice和中英文自动翻译(罗塞塔)

3.2 延伸阅读

高阶语言模型:多元统计模型
模型训练,零概率问题和平滑问题(语料库大小问题)
语料的选取问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值