第一章 绪论
语言学的目的是为了能够描述和解释我们周围的语言现象。
为了解释语言的结构,人们设计了一些规则来将语言表达结构化。这些语法法则变得日趋正式和严格,试图描述什么是正确的和不正确的语言表达。然而,这种方式一个明显的缺陷是: 对于正确的语言表达,我们无法给出一个精确并且完备的特性,因而无法把他们和错误的语言表达清楚地区分开来。
本书不严格区分句子是否合乎语法,则是要探索语言使用中句子通常出现的形式是什么。使用统计语言学则是通过计数,即统计方法识别语言使用中通常出现的形式。
本书建立一个统计语言模型并有效的使用它来处理许多自然语言处理任务。
1.1 理性主义者和经验主义者的方法
共同关注的问题:什么样的先验知识(先于经验的知识)应该加入所设计的语言模型
1960-1985 理性主义占统治地位,包括(语言学、心理学、人工智能和自然语言处理),他们相信在人类头脑的知识不是感官得到的,而是提前固定在头脑中,由遗传基因决定的。chomsky理性主义的关键假设:先天结构论,假设语言的关键部分是天生的,理性主义假设大脑中存在某些原始的结构(基因),
经验主义倾向于相信人类大脑中有一种结构,能够从感官输入的信息中组织和产生语言,因此不经过学习生成某些语言也是有可能的。经验主义假设:大脑中存在某些原始结构,可以从感官输入的信息中组织和产生语言。
相同点:认为不经过学习产生某种语言是可能的。
经验主义突破之处:认为人类的智能不是开始于细化的规则及以及针对语言结构和其他感知领域的程序集,认为婴儿的大脑最初具有联想,模式识别和概括的一般能力,这些能力可以通过丰富的感官输入,是孩子学习到自然语言的详细结构。
相对于自然语言处理。经验主义方法认为可以通过一个适当的语言模型学习复杂的和广泛的语言结构,通过把统计学、模型识别和机器学习的方法应用到大规模的语言使用例子中,可以得到模型参数的数值。
语料库:一个文本集合 (实际中不能研究观测到大规模的语言实例,人们用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品)
理性主义者和经验主义者试图表述不同的事务。
乔姆斯基语言学派(产生式)探寻描述人类头脑中的语言模型(I-语言),这个语言模型的数据,即文本(E-语言),只提供了间接的证据,这个证据是可以被母语说话者下意识补充的。
经验主义方法感兴趣的是描述实际