第三章统计语言模型
自然语言是一种上下文相关的信息表达和传递的方式。计算机要处理自然语言的一个基本问题就是为自然语言这种上下文的特性建立数学模型,常用统计语言模型。
统计语言模型是基于语料库的统计模型,简言之,就是统计一个句子中各个词语共同出现的概率。
P(S) = P(w1)*P(w2|w1)*P(w3|w1,w2)。。。
马尔科夫简化了这个模型,即只计算一个词语与上一个词的共同出现的概率。也称之为二元模型
P(S)=P(w1)*P(w2|w1)*P(w3|w2)。。。
数学之美在于把复杂的问题变得更加简单了。用简单的数学模型能解决复杂的语音识别,机器翻译等问题。而用复杂的方法规则和人工智能却做不到。
未观察到数据零概率问题,谓之“不平滑”,可采取古德-图灵公式对从未出现的样本赋予一个较小的概率值。