从规则到统计与统计语言模型
一、自然语言处理-从规则到统计
1.基于规则的自然语言处理
在20世纪60年代,摆在科学家面前的问题是怎样才能让机器理解自然语言。当时普遍的认识是首先要做好两件事,即分析语句(语法)和获取语义。由于西方的语言学家们已经对各种自然语言进行了非常形式化的总结,学习语法规则、词性和构词法对于学习西方语言尤为重要,并且当时语法规则又非常容易用计算机的算法来描述,所有当时的一些科学家就更坚定的认为基于规则才是自然语言处理最好的方法。然而,事实证明,单纯基于文法(语法)规则的分析器是处理不了稍微复杂的句子的,主要问题有二:
首先,要想通过文法(语法)规则覆盖(正确描述)哪怕20%的真实语句,文法规则的数量(这里还不包括词性标注的规则)至少是几万条;
其次,即使能够写出涵盖所有自然语言现象的语法规则集合,用计算机去解析它也是相当困难的,因为现实中自然语言的文法是比较复杂的上下文有关文法,而程序语言是我们认为设计的,为了便于计算机解码的上下文无关文法。
到了20世纪70年代,基于规则的语句分析暴露出了更大的问题:自然语言中词的多义性很难用规则来描述,而是严重依赖于上下文和常识,因此,基于规则的自然语言处理终究还是走到了尽头。
2.基于统计的自然语言处理
1970年佛里德里克.贾里尼克和他领导的IBM华生实验室将统