自然语言处理的三个里程碑
文章讲述了自然语言处理历史中发现的两个事实和三个里程碑式的进展。
两个事实分别为:
一、短语结构语法不能有效地描写自然语言。为了识别句子的语法结构,将句子中的词一个一个切分出来,然后查词典,给每个词指派一个合适的词性;在这个基础上,用句法规则把句子里包含的句法成分逐个识别出来,进而判断每个短语的句法功能及语义角色。最终得到的句子的意义表示。短语结构语法在自然语言句法描述中占用重要地位,但是有一些致命的弱点。由于短语语法结构的基础是词的类别属性,而这个属性类别是查字典得来的一种硬性划分,过于武断且大部分词具有多种属性,这样会漏掉很多信息,最后造成一些根本性的弱点,如“短语类型歧义”和“短语边界歧义”等。由此说明基于单一标记的PSG不能充分描述自然语言中的句法歧义现象。故后来采用复杂特征集和词汇主义方法来重建自然语言的语法系统,是近二十年来全球语言学界对此做出的最重要的努力。
二、短语结构规则的覆盖有限。。Chomsky 曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目是有限的,而据此生成的句子数目是无限的。在这个假设的基础上凭借经验构造语法规则,以求达到目的。通过大规模语料的调查,人们发现语言的短语规则的分布符合齐夫率。Zipf 是一个统计学家和语言学家。他提出,如果对某个语言单位(不论