从规则到统计与统计语言模型

本文介绍了自然语言处理从基于规则的方法到基于统计方法的转变,重点讨论了统计语言模型,包括马尔可夫假设、二元模型、N元模型及其训练过程。统计方法在语音识别领域的成功应用推动了自然语言处理的进步。
摘要由CSDN通过智能技术生成
从规则到统计与统计语言模型
一、自然语言处理-从规则到统计
1.基于规则的自然语言处理
    在20世纪60年代,摆在科学家面前的问题是怎样才能让机器理解自然语言。当时普遍的认识是首先要做好两件事,即分析语句(语法)和获取语义。由于西方的语言学家们已经对各种自然语言进行了非常形式化的总结,学习语法规则、词性和构词法对于学习西方语言尤为重要,并且当时语法规则又非常容易用计算机的算法来描述,所有当时的一些科学家就更坚定的认为基于规则才是自然语言处理最好的方法。然而,事实证明,单纯基于文法(语法)规则的分析器是处理不了稍微复杂的句子的,主要问题有二:
    首先,要想通过文法(语法)规则覆盖(正确描述)哪怕20%的真实语句,文法规则的数量(这里还不包括词性标注的规则)至少是几万条;
    其次,即使能够写出涵盖所有自然语言现象的语法规则集合,用计算机去解析它也是相当困难的,因为现实中自然语言的文法是比较复杂的上下文有关文法,而程序语言是我们认为设计的,为了便于计算机解码的上下文无关文法。
    到了20世纪70年代,基于规则的语句分析暴露出了更大的问题:自然语言中词的多义性很难用规则来描述,而是严重依赖于上下文和常识,因此,基于规则的自然语言处理终究还是走到了尽头。
2.基于统计的自然语言处理
    1970年佛里德里克.贾里尼克和他领导的IBM华生实验室将统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值