- 给定文本序列 x 1 , . . . , x T x_1,...,x_T x1,...,xT,语言模型的目标是估计联合概率 p ( x 1 , . . . , x T ) p(x_1,...,x_T) p(x1,...,xT)
- 它的应用包括
- 做预训练模型(BERT, GPT-3)
- 生成文本,给定前几个词,不断使用 x t ∼ p ( x t ∣ x 1 , . . . , x t − 1 ) x_t\sim p(x_t|x_1,...,x_{t-1}) xt∼p(xt∣x1,...,xt−1)来生成后续文本
- 判断多个序列中哪个更常见(语音识别发音相似的词句、打字时补全提示以及纠错)
使用计数来建模
- 假设序列长度为2,我们预测 p ( x , x ′ ) = p ( x ) p ( x ′ ∣ x ) = n ( x ) n n ( x , x ′ ) n ( x ) p(x,x^{'})=p(x)p(x^{'}|x)=\frac{n(x)}{n}\frac{n(x,x^{'})}{n(x)} p(x,x′)=p(x)p(x′∣x)=nn(x)n(x)n(x,x′)