笔记:语言模型(Language Model)(一)

本文介绍了语言模型在自然语言处理中的应用,重点讲解了n元语法模型,包括一元、二元和三元模型,以及如何使用最大似然估计计算条件概率。通过对训练语料库的分析,可以计算新句子的概率。
摘要由CSDN通过智能技术生成

笔记,总结纪录自《统计自然语言处理(第二版)(宗成庆)》

语言模型(language model, LM)在自然语言处中,尤其是基于统计模型的语音识别、机器翻译、汉语自动分词、句法分析等相关研究中都有广泛的应用。

其中最主要采用的是n元语法模型(n-gram),这种模型构建简单、直接,但因为数据缺乏需要采用平滑(smoothing)算法。

一个语言模型中,通常构建为字符串s的概率分布p(s),反映的是字符串s作为一句子出现的概率。

对于一个由 l 个基元(基元 可以是字、词、或短语等)构成的句子 s=w1w2wl ,其概率公式可以表示为:

p(s)=p(w1)p(w2| w1)p(w3| w1w2)p(wl| w1wl1) =li=1p(wi| w1wi1)

其中,第 i(1il) 个词的概率是由已经产生的 i1 个词 w1w2wi1 决定的,一般称第 i1 个词为第 i 个词的历史。然而,这种计算方法,随着词长度的增加,不同的历史数目将会按指数级增长。因此,通过将历史划分为等价类,即n元语法或n元文法(n-gram)。一般n取值不超

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值