1. 基本概念
1.1语言模型的概念
生成文本序列的通常方式是训练模型在给定所有先前词/字符的条件下预测下一个词/字符出现的概率。此类模型叫作统计语言模型.
任意语言模型的主要目的都是学习训练文本中字符/单词序列的联合概率分布,即尝试学习联合概率函数。从而捕捉训练文本的统计结构。
记 W = w 1 K = ( w 1 , . . . , w K ) W=w_1^K=(w_1,...,w_K) W=w1K=(w1,...,wK)表示由K个词 w 1 , . . . , w K w_1,...,w_K w1,...,wK按顺序构成的一个句子。则这个句子的概率为 P ( W ) = P ( w 1 K ) = P ( w 1 , . . . , w K ) / / 联 合 概 率 = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) … P ( w K ∣ w 1 , w 2 , . . . , w K − 1 ) = P ( w 1 ) P ( w 2 ∣ w 1 1 ) P ( w 3 ∣ w 1 2 ) . . . P ( w K ∣ w 1 K − 1 ) / / 记 为 向 量 形 式 = ∏ i P ( w i ∣ w 1 i − 1 ) P(W)=P(w_1^K)=P(w_1,...,w_K)//联合概率 \\=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P(w_K|w_1,w_2,...,w_{K-1}) \\=P(w_1)P(w_2|w_1^1)P(w_3|w_1^2)...P(w_K|w_1^{K-1})//记为向量形式\\=\prod_{i}P(w_i|w_1^{i-1}) P(W)=P(w1K)=P(w1,...,wK)//联合概率=P(w1)P(w2∣w1)P(w3∣w1