N-gram语言模型文本分类器

该博客探讨了N-gram语言模型在文本分类任务中的使用。通过假设当前词出现概率仅与前N-1个词相关,计算概率分布以进行分类。公式4和公式5分别用于计算条件概率和总概率。
摘要由CSDN通过智能技术生成
N-gram语言模型文本分类
一  语言模型(Language Model LM)
1、定义
假设一个字符串w=w1w2….wn; wi可以是一个字,一个词或者一个短语
我们把一个可以计算 P(W) 或者P(wn|w1,w2…wn-1) 的模型称为语言模型,Language model,或者写成LM。
目的:在给定语料库的情况下,计算一个字符串出现的概率
作用:a、机器翻译
P(high winds tonight) > P(large winds tonight)
b、拼写纠正
The office is about fifteen minuets from my house
P(about fifteen minutes from) > P(about fifteen minuets from)
c、语音识别
P(I saw a van) >> P(eyes awe of an)
d、文本分类
还有自动摘要生成、问答系统等。
2.如何计算字符串W出现的概率,即如何计算p(w)
例如:如何计算P(its, water, is, so, transparent, that)出现的概率呢?
这就涉及联合概率和条件概率的知识了。
回顾一下联合概率公式:
P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C) (1)
一般地: P(x1,x2,x3,…,xn) = P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1,…,xn-1) (2)

所以字符串“its water is so transparent”出现的概率计算方法是
P(“its water is so transparent”) =
P(its) × P(water|its) × P(is|its water)
× P(so|its water is) × P(transparent|its water is so)

但是,但我们计算P(wn|w1,w2…wn-1)的时候,比如

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值