NLP发展中理性主义和经验主义的矛盾

本文探讨了自然语言处理中的两种主要方法:基于规则的理性主义和基于统计的经验主义。理性主义强调人工制定语言规则,能有效处理长距离依存关系,但易受非本质错误影响且难以自动学习。经验主义通过统计学习大量数据,适应性强,但可能面临数据稀疏问题。两者各有优劣,常结合使用以提高处理效果。
摘要由CSDN通过智能技术生成

在自然语言处理发展的过程中,始终充斥着基于规则的理想主义方法和基于统计的经验主义方法之间的矛盾,自然语言处理也在这种矛盾中逐渐成长起来。

基于规则的理性主义方法

理想主义方法主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序,系统根据规则和程序,将自然语言理解为符号结构——该结构的意义可以从结构中的符号的意义推导出来。

按照这种思路,在自然语言处理系统中,一般首先由词法分析器按照人编写的词法规则对输入句子的单词进行词法分析,然后,词法分析器根据人设计的语法规则对输入的句子进行词法结构分析,最后根据一套变换规则将词法结构映射到语义符号(如逻辑表达式、语义网络、中间语言等)

理想主义方法的优点

  1. 基于规则的理性主义方法中的规则主要是语言学规则,这些规则的形式描述能力和形式生成能力都很强,在自然语言处理中有很好的应用价值。
  2. 基于规则的理性主义方法可以有效地处理句法分析中的长距离依存关系(long-distance dependencies)等困难问题,如句子中长距离的主语和谓语动词之间的一致关系问题(subject-verb agreement)、wh位移(wh-movement)问题。
  3. 基于规则的理性主义方法通常都是明白易懂的,表达得很清晰,描述的很明确,很多语言事实都可以使用语言模型得结构和组成部分直接的、明显的表示出来.
  4. 基于规则的理性主义方法在本质上是没有方向性的,使用这种方法研制出来的语言模型,既可以用于分析,也可以用于生成。也就是说,同一个语言模型可以双向使用。
  5. 基于规则的理性主义方法可以在语言知识的各个平台使用,可以在语言的不同维度上得到多维的应用。这种方法不仅可以在语音和形态的研究中使用,而且在句法、语义、语用、篇章的分析中也大显身手。
  6. 基于规则的理性主义方法与计算机科学中提出的一些高效算法是兼容的。

理性主义方法的缺点

1.基于规则的理性主义方法研制的语言模型一般都比较脆弱,鲁棒性很差,一些与语言模型稍微偏离的非本质性的错误,往往会使得整个语言模型无法正常地工作,甚至导致严重后果。不过,近年来已经研制出一些鲁棒的、灵活的剖析技术,这些技术能够使基于规则的剖析系统从剖析失败中得到恢复。

2.使用基于规则的理性主义方法来研制自然语言处理系统时,往往需要语言学家、语音学家和各种专家的配合,进行知识密集的研究,研究工作的强度很大;基于规则的语言模型不能通过机器学习的方法自动获得,也无法使用计算机自动的进行泛化。

3.使用基于规则的理性主义方法设计的自然语言处理系统的针对性很强,很难进行进一步的升级。

4.基于规则的理性主义方法在实际的使用场景其表现往往不如基于统计的经验主义那样好。因为基于统计的经验主义方法可以根据实际训练数据的情况不断地优化,而基于规则的理性主义方法很难根据实际的数据进行调整。基于规则的理性主义方法衡南模拟语言中局部的约束关系。例如,单词的优先关系对于词类标注是非常有用的,但是基于规则的理性主义方法很难模拟这种优先关系。

基于统计的经验主义方法

经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。因此,经验主义的自然语言处理方法是建立在统计方法基础之上的。

在统计的自然语言处理方法中,一般需要收集一些文本作为统计模型建立的基础,这些文本称为语料(corpus)。经过筛选、加工和标注等处理的大批量预料构成呢个的数据库叫做语料库(corpus base)。

经验主义方法的优点

1.使用基于统计的经验主义方法来训练语言数据,从训练的语言数据中自动地或半自动地获取语言的统计知识,可以有效地简历语言的统计模型。这种方法在文字和语音的自动处理中效果良好,在句法自动分析和词义排歧中也初露锋芒。

2.基于统计的经验主义方法的效果在很大程度上依赖于训练语言数据的规模,训练的语言数据越多,基于统计的经验主义方法的效果越好。

3.基于统计的经验主义很容易和基于规则的理性主义方法结合起来,从而处理语言中形形色色的约束条件问题,使自然语言处理系统的效果不断得到改善。

4.基于统计的经验主义方法很适合用来模拟那些有细微差别的、不精确的、模糊的概念(如“很少”、“若干”等)。

经验主义方法的缺点

1.使用基于统计的经验主义方法研制的自然语言处理系统,其运行时间是与统计模式中所包含的符号类别的多少成比例线性增长的,不论在训练模型的分类中还是在测试模型的分类中,情况都是如此。

2.在当前语料库技术的条件下,要使用基于统计的经验主义方法为某个特殊的应用领域获取训练数据,还是一件费时费力的工作,而且很难避免出错。

3.基于统计的经验主义方法很容易出现数据稀疏的问题,随着训练语料库规模的增大,数据稀疏的问题会越来越严重,这个问题需要各种平滑技术来解决。

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值