程序语言的语法描述
一、符号和符号串
字母表:字母表Σ是符号元素的非空集合。
符号:字母表中的元素。
符号串:字母表中的符号所组成的任何有穷序列。
特别定义:空符号串——不含任何符号的符号串,用 ε 表示。
符号串的运算:
符号串的连接(联结、乘积):符号串x和y的连接是指x和y的符号按先后顺序排列在一起组成一个新的符号串,用xy表示。
例,若字母表Σ={a,b},符号串x=ab,y=ba,则xy=abba
注意: (1)连接运算不满足交换律,即xy≠yx
(2)任何符号串x与空串ε的连接都等于x,即εx=xε=x。
符号串的长度:符号串中符号的个数为符号串的长度。
若ab是符号串,则|ab|表示符号串的长度。 |ab|=2
注意:特别规定 |ε|=0。
符号串的前缀与后缀(头和尾):若有符号串 z=xy(x,y是符号串),我们称x为z的前缀,y为z的后缀。
例z=abcd 则:
z的头有, ε , a , ab , abc , abcd
z的尾有, ε ,d , cd , bcd , abcd
符号串的幂运算:设X是一个符号串,则:
注:符号串的幂运算服从结合律
二、符号串集合
符号串集合:设给定字母表Σ,则Σ上的字符串的集合成为该字母表Σ上的符号串集合。
注:为区分符号和符号串集合,要求二者表示符号要严格区分。 通常,符号采用小写字母表示,符号串集合采用大写字母表示
符号串集合的运算
符号串集合的乘积运算:设A、B为符号串集合(集合中各元素都是字母表上的字符串),两个字符串集合的乘积定义为:AB={xy|x∈A , y∈B}(笛卡儿乘积)
特别定义:空符号集合:{ε}
空集合:φ={}
符号串集合的幂运算:设A为符号串集合,则集合的幂运算定义如下:
符号串集合的闭包:
三、上下文无关文法
文法(Grammar):是描述语言的语法结构的形式规则(即语法规则)。
语法树(Parse Tree):句子结构的图形表示方式
规则:规则又叫产生式(production rule),它是句子结构的另一种表示结构,它引入了符号“::=”或“→”表示“由……组成”,上述句子的结构可以表示如下:
句子的推导:用规则(产生式)按一定方式去推导或产生句子的过程。
四、文法和语言的形式定义
定义1
产生式(或规则)是一有序对(A, α),通常写为:A→ α或A∷= α 其中A是一个符号作为产生式左部, α为有穷符号串作为产生式的右部,“ →”或“∷=”表示“定义为…”或“由…组成”。
定义2
文法是一个四元组:G[S]=(VN, VT, P, S)
其中:
定义3
符号串的推导与归约:已给文法G=(VN,VT,P,S), V= VN∪VT,令x,y,α,β∈V*,且α→β∈P,此时,由符号串xαy能够直接产生出符号串xβy,我们称:
符号串xβy是符号串xαy的直接推导;
符号串xαy是符号串xβy的直接归约;
记作:
定义4
句型和句子:设G=(VN,VT,P,S)是一文法
定义5
定义6
等价文法:如果L(G1)=L(G2) ,那么称G1和G2为等价文法。
定义7
递归产生式和递归文法:设给定文法G=(VN,VT,P,S)
(1)若存在产生式A→α∈P 且有成立,则称产生式A→α是递归产生式;
若x=ε且y≠ε,则称产生式A→α是左递归产生式;
B →Bb
若x≠ε且y=ε,则称产生式A→α是右递归产生式。
B →bB
定义8 短语、简单短语和句柄:设文法 G=(VN,VT,P,S) ,
文法的分类
按照文法中产生式的不同情况,Chomsky把文法分成四种类型,四种类型的文法对应着四种类型的语言。
语法树和文法的二义性
语法树: 设文法G=(VN,VT,P,S) ,所谓语法树是一张图,这张图表示一个句型的推导过程。语法树结构是一棵倒立的树结构,其中,结点的名字N∈V,根结点的名字S是文法G的根符号,树中的中间结点是句型推导过程中使用的非终结符 ,树的端末结点自左向右排列就是所给句型。
文法的二义性:若一个文法存在某个句子对应两棵不同的语法树,则称此文法是二义性文法,运用文法描述程序设计语言的语句成份,一般希望所给文法是非二义文法,但是,有时候采用二义性文法比非二义文法要简单的多,所以,经常用二义性文法描述程序设计语言。
有关文法的实用限制
1.不能有形如: U →U的产生式;
2.不能有多余产生式,多余产生式可以从文法中删掉,所谓多余产生式有这样的特点:
(1)在推导文法的所有句子时,始终都用不到的产生式;
(2)在推导过程中,一旦使用此产生式,将无法推出任何句子的的产生式;
句型的分析
1.自上而下的分析方法
2.自下而上分析法