语言模型(language model)
专家语言模型
基于语言学专家设计的语法规则,设计语言模型。专家语言模型一直到上世纪80年代是研究的主流。例如IF…ELSE…语句,在专家语言模型中是十分常见的。
统计语言模型
关于统计语言模型,参考吴军老师的《数学之美》中的介绍,语言模型最初用于语音识别任务,其目标就是判断一个文字序列是否符合我们的认知,例如下面一句话:
美联储主席本·伯南克昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司。
这句话我们人类能够读懂,但是如果是下面这句话:
联主美储席本·伯诉体南将借天的救克告媒昨助资金70元亿00美给上百百百家银保行、汽车险公司公司和。
人类就看不懂这句话什么意思,统计语言模型就是一种判断人类是否能看懂一句话的模型。我们可以这样建模统计语言模型,假定一句话 S S S是由 w 1 , w 2 … w n w_1,w_2\dots w_n w1,w2…wn这n个词以特定顺序排列构成的(这里的顺序就是 w 1 , w 2 … w n w_1,w_2\dots w_n w1,w2…wn出现的先后顺序):
p ( S ) = p ( w 1 , w 2 … w n ) p(S)=p(w_1,w_2\dots w_n) p(S)=p(w1,w2…wn)
我们看 S S S出现的概率,例如上面第一句话出现的概率可能是 1 0 − 20 10^{-20} 10−20,第二句话出现的概率是 1 0 − 70