最近在网络上一直在了解有关基于规则和基于统计的方法的文章,但是觉得说的还是很笼统,为此,根据自己所做的工作参考一些材料聊聊自己的认识,说的较为简单,希望大家能给予批评指正!
说起基于规则和基于统计就不能不说一下有关NLP的一些基本研究方法,首先这谈谈理性主义和经验主义在哲学上的不同之处:
其一就是对语言知识来源不同的认识:理性主义认为人的很大一部分语言知识都是与生俱来的,由遗传决定;经验主义认为人的语言知识是通过感官输入,经过一些简单的联想与通用化的操作而得到的。
其次区别之二就是理性主义研究人的语言知识结构,实际的语言数据只是提供这种内在知识的间接证据;而经验主义直接研究这些实际的语言数据。
其三就是它们运用的是不同的理论,理性主义通常是基于Chomsky的语言原则,通过语言所必须遵守的一系列原则来描述语言;经验主义通常是基于Shannon的信息论。
其四就是采用的是不同的处理方法,理性主义是通过一些特殊的语句或是语言现象的研究得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中不常见,而经验主义偏重於对大规模的语言数据,更偏重于对实际使用中的普通语句的统计。
由哲学思想的理性主义和经验主义可以得到基于规则和基于统计的方法,可以说,哲学的两种思想是导致NLP的两个分支。理性主义问题的求解方法是通过规则的分析方法,建立符号处理系统,目前的方法有基于规则库、词典标准、推到算法设计等,具体实现方法有、形式语言、语法理论、词法理论、推理方法等,主要是以Chomsky的文法理论为基础,通过知识库和推理系统的结合来建立NLP系统。而经验主义的问题求解方法是通过大规模的真实语料ÿ