经典回顾:N-gram模型

N-gram模型是一种简化语言模型概率计算的方法,通过只考虑前N-1个词来估算下一个词出现的概率。在自然语言处理中,通常使用<s>和</s>作为句子的开始和结束标识符。以2-gram为例,通过统计语料库中的gram片段频率,可以计算一句话是否符合人类语言的概率。例如,给定输入“i want chinese food”,结合词频和2-gram概率表,可以计算这句话的概率。
摘要由CSDN通过智能技术生成

简介

N-gram模型是一种语言模型,即给定语料库后,向模型输入一句话,模型输出该句话符合人说的话的概率。

动机

一般情况下,计算由m个词组成的一句话符合人说话的概率为: P ( w 1 , w 2 , . . . , w m ) = P ( w 1 ) P ( w 2 ∣ w 1 ) . . . P ( w m ∣ w m − 1 , w m − 2 , . . . , w 1 ) P(w_1,w_2,...,w_m)=P(w_1)P(w_2|w_1)...P(w_m|w_{m-1},w_{m-2},...,w_1) P(w1,w2,...,wm)=P(w1)P(w2w1)...P(wmwm1,wm2,...,w1)
可以看出这个概率不好计算。而N-gram模型实际上提供了一种计算这个概率的简便方法,即每次词出现的概率只和前N-1个词有关系(类似于马尔可夫过程),这样的话大大简化了计算。这里以N=2为例,则概率被修改为 P ( w 1 , w 2 , . . . , w m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值