文本处理经常会将语言模型假设成词的联合概率,如一句话假设为:
p(w1,w2...wn)
这个联合概率没办法直接求解,并且转化成条件概率才能包含词间关系。
如 p(a,b,c) = p(a|bc) p(bc)= p(a|bc)p(b|c)p(c)
这里推广到n个随机变量
p(w1,w2,w3...wn) = p(w1|w2,w3...wn)p(w2,w3....wn) = p(w1|w2,w3...wn)p(w2|w3....wn)p(w3....wn)
p(w1)可以看做w1词出现的概率,p(w1|w2)p(w2)看做w1和w2共现的概率。
基本照搬: