9 特征结构与合一运算
上下文无关文法
上下文无关文法为句法知识的形式化提供了一个有效的工具。
同时,对于上下文无关文法,存在像Earley算法、广义LR算法等一系列有效的算法,进行句法分析。
然而,利用上下文无关文法描写自然语言,不但可以生成自然语言中的合法句子,也可以产生大量自然语
言中不合法的句子,存在所谓的过度生成问题。
一致性问题:限定词和名词时间的单复数一致。主语和谓语在人称和数方面保持一致。
动词的次范畴化框架:动词可以根据其所要求的搭配成分形成不同的框架,这种框架被称为动词的次范畴化框架。
可以采用对句法范畴进行分类的方式解决过度生成问题。
句法范畴的数量迅速增加,导致重写规则的数量爆炸性增加。
在上下文无关文法中,只使用了单一的语法范畴标记,无法表示更加细致的语言学特征。
由于没有细致的语言学特征,成分之间是否可以组合缺乏判别依据。
解决的办法是引入更多的语言特征,并允许在成分和成分组合时进行某种测试。
语言中的特征继承
语言中成分和成分组合形成一个更大成分时,如何确定这个组合成分的特征。
语言中的很多结构属于一种向心结构,组成组合成分的不同成分地位并不相同,组合成分的特征往往从其中心组成成分(head)那里继承特征。
特征结构
将上下文无关文法中的简单句法范畴扩展为带若干特征的复杂句法范畴(特征结构)。
应用重写规则时,要首先通过特征结构的检验。
特征结构是有限个“特征-值”对的集合。特征结构形式上可写成如下形式。
特征结构也称复杂特征集(complex features set)或属性值矩阵。