自然语言处理的三个里程碑

本文探讨了自然语言处理中的两个关键事实:短语结构语法的局限性和短语结构规则的覆盖有限。并介绍了三个里程碑:复杂特征集的使用、词汇主义的兴起以及统计语言模型的引入。这些进展推动了自然语言处理技术的发展。
摘要由CSDN通过智能技术生成
 
自然语言处理的三个里程碑
文章讲述了自然语言处理历史中发现的两个事实和三个里程碑式的进展。
两个事实分别为:
一、短语结构语法不能有效地描写自然语言。为了识别句子的语法结构,将句子中的词一个一个切分出来,然后查词典,给每个词指派一个合适的词性;在这个基础上,用句法规则把句子里包含的句法成分逐个识别出来,进而判断每个短语的句法功能及语义角色。最终得到的句子的意义表示。短语结构语法在自然语言句法描述中占用重要地位,但是有一些致命的弱点。由于短语语法结构的基础是词的类别属性,而这个属性类别是查字典得来的一种硬性划分,过于武断且大部分词具有多种属性,这样会漏掉很多信息,最后造成一些根本性的弱点,如“短语类型歧义”和“短语边界歧义”等。由此说明基于单一标记的PSG不能充分描述自然语言中的句法歧义现象。故后来采用复杂特征集和词汇主义方法来重建自然语言的语法系统,是近二十年来全球语言学界对此做出的最重要的努力。
二、短语结构规则的覆盖有限。。Chomsky 曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目是有限的,而据此生成的句子数目是无限的。在这个假设的基础上凭借经验构造语法规则,以求达到目的。通过大规模语料的调查,人们发现语言的短语规则的分布符合齐夫率。Zipf 是一个统计学家和语言学家。他提出,如果对某个语言单位(不论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值