NLP模型笔记2022-04:一个简单案例理解语言模型预测句子的原理

本文介绍了统计语言模型的基础,通过马尔科夫模型理解句子概率,探讨了n元文法(如一元、二元、三元文法)的概念,并指出随着n增大参数增多的问题。同时,提到了零概率问题和解决方法——平滑处理,以及语料库在NLP中的重要性。
摘要由CSDN通过智能技术生成

在这里插入图片描述

所谓语言模型,就是利用数学的方法描述语言规律。而统计语言模型,就是用句子S出现的概率P(S)来刻画句子的合理性(而不进行语言学分析处理),这是统计自然语言处理的基础模型。

本次使用马尔科夫模型进行理解:

假设句子S=w1,w2,…,wn,其中,wi可以暂时看作句子中的第i个词(在后面会进行具体介绍)。由于自然语言是上下文相关的信息传递方式,可以很自然地讲句子S出现的概率定义如下:

P(S) = P(w1)P(w2|w1)...P(wn|w1,w2,...wn-1)

特别地,当i=1时,P(w1|w0) = P(w1),概率定义与条件概率相同。

在统计语言模型中,输入是句子S,输出是句子S的概率P(S),模型参数是各个P,即,P(wi|w1,w2,…,wi-1)。

wi被称为统计基元,可以是字、词、短语、词类等等,通常以“词”代替;

wi由w1,w2,…wi-1决定,由特定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源代码杀手

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值