语言模型
语言模型在实际应用中可以解决非常多的问题,例如判断一个句子的质量:
- the house is big ! good
- house big is the ! bad
- the house is xxl ! worse
可以用于词的排序,比如the house is small
优于small the is house
;可以用于词的选择,I am going ___ (home/house)
,其中I am going home
优于I am going house
,除此之外,还有许多其他用途:
- 语音识别
- 机器翻译
- 字符识别
- 手写字体识别
- …
概率语言模型
假设词串 W = w 1 , w 2 , . . . , w n W=w_{1},w_{2},...,w_{n} W=w1,w2,...,wn,以p(W)表示该词串可能出现的概率,那么从概率的角度上,
p ( W ) = p ( w 1 , w 2 , . . . , w n ) p(W)=p(w_{1},w_{2},...,w_{n}) p(W)=p(w1,w2,...,wn)
要计算p(W),根据链式法则有:
p ( W ) = p ( w 1 ) p ( w 2 ∣ w 1 ) . . . p ( w n ∣ w 1 , w 2 , . . . , w n − 1 ) p(W)=p(w_{1})p(w_{2}|w_{1})...p(w_{n}|w_{1},w_{2},...,w_{n-1}) p(W)=p(w1)p(w2∣w1)...p(wn∣w1,w2,...,wn−1)
其中 w 1 , w 2 , . . . , w i − 1 w_{1},w_{2},...,w_{i-1} w1,w2,...,wi−1为第i个词的历史词。
例句:likely connects audiences with content
p ( l i k e l y c o n n e c t s a u d i e n c e s w i t h c o n t e n t ) = p ( l i k e l y ∣ s e n t e n c e s t a r t ) × p ( c o n n e c t s ∣ l i k e l y ) × p ( a u d i e n c e s ∣ l i k e l y , c o n n e c t s ) × p ( w i t h ∣ l i k e l y , c o n n e c t s , a u d i e n c e ) × p ( c o n t e n t ∣ l i k e l y , c o n n e c t s , a u d i e n c e , w i t h ) p(likely\,connects\,audiences\,with\,content)\\=p(likely|sentence\,start)\\\times p(connects|likely)\\\times p(audiences|likely,connects)\\\times p(with|likely,connects,audience)\\\times p(content|likely, connects, audience, with) p(likelyconnectsaudienceswithcontent)=