语言模型是NLP当中的经典模型。给定文本序列 ,x1可能是词也可能是字符。语言模型的目标是估计联合概率,即估计整个文本出现的概率。
语言模型的应用:做预训练模型;生成文本;判断多个序列哪个更常见。
语言模型的建立,可以通过计数来建模:
n是整个文本的词token的出现数目的总和。
处理很长的序列时,使用基于马尔科夫假设的统计模型——N元语法来解决。若待预测序列长度t,N越大,计算复杂度还行O(t)(因为一些计数的值事先存储了),但空间复杂度很大。一元语法:当前数据和过去0个数据有关,认为互相独立,忽略时序信息。二元语法:当前只和 有关,当前数据和过去1个数据有关。一般二元语法和三元语法用的多。