N-gram语言模型文本分类器

最新推荐文章于 2023-08-10 19:55:35 发布

Sweety_Wei

最新推荐文章于 2023-08-10 19:55:35 发布

阅读量6.2k

点赞数 4

分类专栏：文本分类文章标签：数据挖掘文本分类自然语言处理 N-gram语言模型分类器

本文链接：https://blog.csdn.net/shiwei1003462571/article/details/43482881

版权

该博客探讨了N-gram语言模型在文本分类任务中的使用。通过假设当前词出现概率仅与前N-1个词相关，计算概率分布以进行分类。公式4和公式5分别用于计算条件概率和总概率。

摘要由CSDN通过智能技术生成

N-gram语言模型文本分类

一语言模型（Language Model LM）
1、定义
假设一个字符串w=w1w2….wn; wi可以是一个字，一个词或者一个短语
我们把一个可以计算 P(W) 或者P(wn|w1,w2…wn-1) 的模型称为语言模型，Language model，或者写成LM。
目的：在给定语料库的情况下，计算一个字符串出现的概率
作用：a、机器翻译
P(high winds tonight) > P(large winds tonight)
b、拼写纠正
The office is about fifteen minuets from my house
P(about fifteen minutes from) > P(about fifteen minuets from)
c、语音识别
P(I saw a van) >> P(eyes awe of an)
d、文本分类
还有自动摘要生成、问答系统等。
2．如何计算字符串W出现的概率，即如何计算p(w)
例如：如何计算P(its, water, is, so, transparent, that)出现的概率呢？
这就涉及联合概率和条件概率的知识了。
回顾一下联合概率公式：
P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C) （1）
一般地： P(x1,x2,x3,…,xn) = P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1,…,xn-1) （2）
即

所以字符串“its water is so transparent”出现的概率计算方法是
P(“its water is so transparent”) =
P(its) × P(water|its) × P(is|its water)
× P(so|its water is) × P(transparent|its water is so)

但是，但我们计算P(wn|w1,w2…wn-1)的时候，比如

最低0.47元/天解锁文章

Sweety_Wei

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
N-gram语言模型文本分类器

N-gram语言模型文本分类器一语言模型（Language Model LM）1、定义假设一个字符串w=w1w2….wn; wi可以是一个字，一个词或者一个短语我们把一个可以计算 P(W) 或者P(wn|w1,w2…wn-1) 的模型称为语言模型，Language model，或者写成LM。目的：在给定语料库的情况下，计算一个字符串出现的概率作用：a、机器翻译P(h
复制链接

扫一扫