文 法 和 语 言 的 分 类
著名的语言学家乔姆斯基(Chomsky )将文法和语言分为 4 大类,即 0 型、1 型、 2 型和 3 型。划分的依据是对文法中的规则施加不同的限制。
1.0 型文法(无限制文法)
若文法 G = (V N , V T , P , S )中的每条规则 α → β 是这样一种结构:
α ∈ ( V N ∪ V T )**且至少含一个非终结符,而 β ∈ (V N ∪ VT )*,则称 G是 0 型文法。0 型文法描述的语言是 0 型语言。
由定义可见,α 和 β 均是文法的终结符和非终结符组成的符号串,且 β 可能为空,而 α 不等于空,即允许 | α |>|β | 。由于 0 型文法没有加任何限制条件,故又称为无限制性文法,相应的
语言称为无限制性语言。
例如,有 0 型文法 G = (V N , V T , P , S ),其中
V N = { A , B , S }
V T = { 0 , 1 }
P = { S →0AB
1 B →0
B → SA |01
A 1→ SB 1
A 0→ S 0 B }
其描述的 0 型语言为 L 0 ( G [ S ]) = {}。
2.1 型文法(上下文有关文法)
若文法 G = (V N , V T , P , S )中的每一条规则的形式为 αA β → αu β ,其中 A ∈ V N , α ,β ∈(V N ∪ V T )* ,u ∈ ( V N ∪ V T )+ ,则称 G 是 1 型文法,1 型文法描述的语言是 1 型语言。
由定义可见,利用规则将 A 替换成 u 时,则必须考虑非终结符 A 只有在 α 和 β 这样的一个上下文环境中才可以把它替换为 u ,并且不允许替换成空串,也就是 | αAβ |≤| αu β | ,故又称 1型文法为上下文有关文法,相应的语言又称为上下文有关语言。
例如,有 1 型文法 G = (V N , V T , P , S ),其中
V N = { S , A , B }
V T = { a , b , c }
P = { S → aSAB | abB
BA → BA'
BA' → AA'
AA' → AB
bA → bb
bB → bc
cB → cc }
其描述的 1 型语言为 L 1 ( G [ S ]) = {anbncn |n ≥1 }。
3.2 型文法(上下文无关文法)
若文法 G = (V N , V T , P , S )中的每一条规则的形式为 A →β ,其中 A ∈ V N ,β ∈(V N ∪V T )* ,则称 G 是 2 型文法,2 型文法描述的语言是 2 型语言。
由定义可见,利用规则将 A 替换成 β 时,与 A 的上下文无关,即无需考虑 A 在上下文中出现的情况,故又称 2 型文法是上下文无关文法,其产生的语言又称为上下文无关语言。通常定义程序设计语言的文法是上下文无关文法,因此,上下文无关文法及相应语言是我们主要研究的对象。
例如,有 2 型文法 G = (V N , V T , P , S ),其中
V N = { S , A , B }
V T = { a , b }
P = { S → aB | bA
A → a | aS | bAA
B → b | bS | aBB }
其描述的语言为 L 2 ( G [ S ]) = {x | x ∈ { a , b }+且 x 中 a 和 b 的个数相同}。
4.3 型文法(正规文法)
若文法 G = (V N , V T , P , S )中的每一条规则的形式为 A → αB 或 A → α ,其中 A , B ∈ V N ,α ∈ V * T ,则称 G 是右线性文法。
若文法 G = (V N , V T , P , S )中的每一条规则的形式为 A → Bα 或 A → α ,其中 A , B ∈ V N ,α ∈ V * T ,则称 G 是左线性文法。
右线性文法和左线性文法都称为 3 型文法或正规文法,3 型文法描述的语言称为 3 型语言或正规语言。
通常定义程序设计语言词法规则的文法是正规文法。
例如,用左线性正规文法和右线性正规文法定义标识符。用 i代表标识符,l代表任意一个字母,d 代表任意一个数字,则定义标识符的文法为
左线性文法:
P : i→ l | il | id
右线性文法:
P : i → l | lT
T → l | d | lT | dT
例如,用左线性正规文法和右线性正规文法定义无符号整数。
用 N 代表无符号整数,d 代表任意一个数字,则定义的无符号整数文法为
左线性文法:
P : N → d | Nd
右线性文法:
P : N → d | dN
由上述 4 类文法的定义可知,从 0 型文法到 3 型文法,是逐渐增加对规则的限制条件而得到的,因此每一种正规文法都是上下文无关的文法,每一种上下文无关的文法都是上下文有关的文法,而每一种上下文有关的文法都是 0 型文法,而由它们所定义的语言类是依次缩小的,即有 L 0 ⊃ L 1 ⊃ L 2 ⊃ L 3 。