统计语言模型--整理中

语言模型(Language Model)是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中,语言模型广泛地用于语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域。
  语言模型可分为传统的文法型语言模型和基于统计的语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。为满足这一需求,基于统计的语言模型应运而生。这种语言模型通常是概率模型,计算机借助于统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性,而不是简单的判断该句子是否符合文法。常用统计语言模型,包括了N元文法模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)。
统计语言模型学习笔记

1、统计语言模型基本原理

  一个基于统计的计算语言模型以概率分布的形式描述了任意语句(字符串)s属于某种语言集合的可能性。例如:p(他/认真/学习)=0.02,p(他/认真/读书)=0.03,p(他/认真/坏)=0,等等。这里并不要求语句s在语法上是完备的,该模型需对任意的语句s都给出一个概率值。
  假定词是一个句子的最小的结构单位,并假设一个语句s由词w1,w2,...,wn组成,那么,不失一般性,p(s)可由公式1计算:
统计语言模型学习笔记
  例如,对于二元模型而言,p(wi|w1w2...wi-1)=p(wi|wi-1),(1<=i<=n),那么上面的公式1就简化成公式2:
统计语言模型学习笔记
  为保证公式1和公式2的完备性,必须引进一个起始词w0,并且假定p(w1|w0)=p(w1)。公式1和公式2满足:
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值