N-gram语言模型文本分类
一 语言模型(Language Model LM)1、定义
假设一个字符串w=w1w2….wn; wi可以是一个字,一个词或者一个短语
我们把一个可以计算 P(W) 或者P(wn|w1,w2…wn-1) 的模型称为语言模型,Language model,或者写成LM。
目的:在给定语料库的情况下,计算一个字符串出现的概率
作用:a、机器翻译
P(high winds tonight) > P(large winds tonight)
b、拼写纠正
The office is about fifteen minuets from my house
P(about fifteen minutes from) > P(about fifteen minuets from)
c、语音识别
P(I saw a van) >> P(eyes awe of an)
d、文本分类
还有自动摘要生成、问答系统等。
2.如何计算字符串W出现的概率,即如何计算p(w)
例如:如何计算P(its, water, is, so, transparent, that)出现的概率呢?
这就涉及联合概率和条件概率的知识了。
回顾一下联合概率公式:
P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C) (1)
一般地: P(x1,x2,x3,…,xn) = P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1,…,xn-1) (2)
即
所以字符串“its water is so transparent”出现的概率计算方法是
P(“its water is so transparent”) =
P(its) × P(water|its) × P(is|its water)
× P(so|its water is) × P(transparent|its water is so)
但是,但我们计算P(wn|w1,w2…wn-1)的时候,比如