编译原理-文法与语言

文法与语言

2.1 符号串和语言

2.1.1 字母表

  1. 定义:字母表是有穷非空的符号集合。
  2. 表示:通常用字母表大写字母A,B,…Z和希腊字母Σ表示。
    eg:A={0,1},Σ={a,b,c,d}
  3. 说明
    1)字母表包含了语言中所允许出现的一切符号。
    2)字母表中的符号也称字符。

2.1.2 符号串

  1. 定义:由字母表中的符号组成的有穷序列
  2. 表示:通常由t,u,v,w,x,y,z等小写英文字母来表示。
  3. 说明
    1)符号串由构成的符号的种类、数量、顺序共同决定。
    2)不包含任何符号的符号串称为空符号串,简称空串,用ε表示。
  4. 对于给定的字母表Σ,符号串的递归定义如下:
    1)ε是Σ上的一个符号串。
    2)若x是Σ上的符号串,a是Σ的符号,则xa是Σ上的符号串。并规定εa=a,aε=a。
    3)y是Σ上的符号串,当且仅当y由1)和2)导出。
  5. 子符号串:一个非空符号串中若干连续符号组成的部分。
  6. 字符串的前缀和后缀
    若z=abd是字母表Σ={a,b,c,d}上的符号串,则ε,a,ab,abd都是z的前缀;ε,d,bd,abd都是z的后缀
  7. 符号串之间的运算
    1)连接:符号串x,y的连接xy就是把符号串y写在x后面得到的字符串。
    eg:若x=ab,y=cd,则xy=abcd,yx=cdab。
    2)方幂:若x是符号串,xn表示n个按顺序连接。当n=0时,x0是空符号串ε。
术语示例
|S||abc| = 3
ε|ε| = 0
S1S2abc def = abcdef
Sn(abc)3 = abcabcabc
S 的前缀 Xabc 的前缀有:ε, a, ab, abc
S 的后缀 Xabc 的后缀有:ε, c, bc, abc
S 的子串 Xabc 的子串有:ε, a, b, c, …
S 的真前缀abc 的真前缀有:a, ab(去掉空和全)
S 的真后缀(去掉空和全)
S 的真子串(去掉空和全)
S 的子序列 Xabdf 是 abcdef 的一个子序列(和原序列顺序相同,可去掉一些字母)
术语意义
Φ空集合
{ ε }空串是唯一元素
X = L ∪ M并: X = { s| s∈L or S ∈M }
X = L ∩ M交:X = { s | s∈L and S ∈M }
X = LM连接: X = { st|s∈L and t ∈ M }
X = L*(星)闭包:X= L0∪L1∪L2∪…
X = L+正闭包:X= L1∪L2∪L3∪…

2.1.3 语言

  1. 定义:由字母表上的一些符号串组成的集合
  2. 说明
    空集Ø是一个语言,仅含一个空符号串的集合{ε}也是一个语言。Ø和{ε}是不同的语言。
  3. 符号串集合之间的运算
    1)并集
    设A和B是符号串的集合,则A和B的并集定义为
    A∪B = {x | x∈A or x∈B}。
    2)乘积
    设A和B是符号串的集合,则A和B的乘积定义为
    AB = {xy | x∈A and y∈B}。
    eg:若A={a,b},B={b,c},则AB = {ab,ac,bb,bc}。
    对任意符号串集合A,有{ε}A = A{ε} = A。
    3)幂运算
    设A是符号串的集合,则A的幂运算定义为
    A0 = {ε}
    A1 = A
    An = AAn-1(n>0)
    eg:若A={0,1},则A0={ε},A1={0,1},A2={00,01,10,11}。
    4)正闭包与闭包
    设A是符号串的集合,则集合A的正闭包A+和闭包A定义为
    A+ = A1∪A2∪…∪An∪…
    A
    = A0∪A1∪…∪An∪…
    eg:若A={0,1},则A+={0,1,00,01,10,11,000,001,…},A*={ε,0,1,00,01,10,11,000,001,…}。

2.2 文法和语言的形式化定义

2.2.1 文法的形式化定义

  1. 产生式规则
    1)定义:一个产生式规则是一个有序对(A,α)。通常写作A→α或A::=α。
    ”→"或”::=”表示“定义为”、“由…组成”、“生成”。
    2)含义: A→α表示左部符号A生成右部符号串α。
    3)若A→α;A→β,则可以写成A→α|β。”|”表示“或”。
    4)非终结符号:产生式规则左部出现的符号。
    5)终结符号:不是非终结符号的符号。
    6)非终结符号既可以出现在产生式规则的左部,也可以出现在产生式规则的右部。终结符号不能出现在产生式规则的左部。(终结符号不能再生成产生式的右部)
    7)非终结符号通常用大写字母或尖括号括起来的部分表示
  2. 文法(产生式规则的集合)
    1)定义:产生式规则的非空有穷集合。由四元组G=(VN,VT,P,Z)组成。
    2)VN:是一个非空有穷集合。它的每个元素称为非终结符号。且VN∩VT=Ø
    3)VT:是一个非空有穷集合。它的每个元素称为终结符号。
    4)P:是文法规则(产生式规则)的非空有穷集合,每个产生式规则的形式是A→α或A::=α,其中A∈VN,α∈(VN∪VT)
    5)Z:是一个非终结符号。称为开始符号或识别符号。它至少要在一条产生式规则的左部出现。由它开始识别定义的语言。(开始符号Z必须是非终结符号,并且至少在一条产生式规则左部出现,用于生成开始符号后的下一条语句
    6)通常不必将文法的四元组显式地表示出来,而仅需给出文法的
    产生式规则集P(由此即能知道Z,Vn,Vt)*。
    7)对于两个不同的文法G[Z]和G’[E],若这两个文法生成的语言相同(结果集相同,具有相同的句型以及句子),则称这两个文法是等价的

2.2.2 语言的形式化定义

  1. 直接推导与推导(直接推导是一步,推导是任意步
    1)直接推导:令G=(VN,VT,P,Z),若A→γ∈P,且α,β∈(VN∪VT),则称αAβ直接推导出αγβ,表示成αA ⇒ βαγβ(这是上下文有关文法,1型文法)
    2)推导:若存在一个直接推导序列: a 0 {a}^{0} a0 a 1 {a}^{1} a1 a 2 {a}^{2} a2⇒…⇒ a n {a}^{n} an,则称这个序列是一个从 a 0 {a}^{0} a0 a n {a}^{n} an的长度为n的推导。
    当n>0时, a 0 {a}^{0} a0 a n {a}^{n} an的推导记为 a 0 {a}^{0} a0 + a n { +a}^{n} +an,表示从 a 0 {a}^{0} a0出发,经过1步或者若干步可推导出 a n {a}^{n} an
    当n≥0时, a 0 {a}^{0} a0 a n {a}^{n} an的推导记为 a 0 {a}^{0} a0
    a n {a}^{n} an,表示从 a 0 {a}^{0} a0出发,经过0步或者若干步可推导出 a n {a}^{n} an
  2. 句型和句子(句子是树叶,为终结符集,可以推导出来的则都为句型
    设有文法G[Z],Z是文法G的开始符号。
    1)句型:若Z ⇒* x,x∈(VN∪VT),则称符号串x为文法G[Z]的句型。(非空终结或者非终结符集
    2)句子:若Z ⇒
    x,x∈VT*,则称符号串x为文法G[Z]的句子。(非空终结符集
    3)句子一定是句型,句型不一定是句子。
  3. 语言(语言是句子的集合,并且每个句子都能从开始符号推导得来,是终结符集的闭包的子集
    1)定义:文法G[Z]产生的所有句子的集合(注意是句子不是句型)称为文法G所定义的语言,记为L(G[Z]),简写为L(G)。L(G)={x| Z ⇒+ x且x∈VT*}
    2)语言L(G)是VT*的子集。
    3)L(G)中的每一个符号串均由终结符号组成,且该符号串能由开始符号Z推导出来。
  4. 递归规则(直接递归)
    1)定义:一个产生式规则中,出现在左部的非终结符也出现在其右部。
    2)种类:左递归、右递归、递归。
    3)左递归:A→A…(非终结符在左侧)
    4)右递归:A→…A (非终结符在右侧)
    5)递归:A→…A…(非终结符在中间)
  5. 文法递归(任一非终结符,推导可得该非终结符本身
    1)定义:对于文法中的任一非终结符,若能建立一个推导过程,在推导所得的符号串中又出现该终结符本身,则称文法是递归的。
    2)种类:左递归、右递归、递归。
    3)左递归:A ⇒+ A…
    4)右递归:A ⇒+ …A
    5)递归:A ⇒+ …A…

2.2.3 短语、直接短语、句柄

  • 直接短语一定是一个产生式的右部,但是产生式的右部不一定是当前句型的直接短语
  • 高人,民生,活水则都不是当前句型的直接短语
    在这里插入图片描述

在这里插入图片描述

设G[Z]是一个文法,假定αβδ是文法G的一个句型。
1)短语:若存在Z ⇒+ αAδ且A ⇒+ β,则称β是句型αβδ相对于非终结符A的短语。(即子树的边缘
2)直接短语:若存在Z ⇒+ αAδ且A⇒β,则称β是句型αβδ相对于产生式规则A→β的直接短语。(高度为2的子树的边缘
3)句柄:一个句型的最左直接短语称为该句型的句柄。

2.2.4规范推导和规范归约

  1. 最左推导:对一个推导序列中的每一步直接推导α⇒β,都是对α中的最左非终结符进行替换
  2. 最右推导(规范推导):对一个推导序列中的每一步直接推导α⇒β,都是对α中的最右非终结符进行替换
  3. 规范句型:由规范推导得到的句型。
  4. 最左归约(规范归约):规范推导的逆过程

2.3 语法分析树与文法的二义性

2.3.1 语法分析树

  1. 语法分析树:一个句型推导过程的树形表示称为语法分析树,简称语法树。
  2. 满足条件:设G=( V N {V}^N VN V T {V}^T VT,P,Z)是一个上下文无关文法(CFG)。
    1)根节点的标记为Z。
    2)根节点外的每个节点也有一个标记,它是 V N {V}^N VN V T {V}^T VT∪{ε}中的符号。
    3)每一个内部节点(非终结符,所以标记在 V N {V}^N VN)的标记A必在VN中。
    4)若某个内部节点标记为A,其子节点的标记从左到右分别为X1,X2,…,Xn,则A→X1X2…Xn必为P中的一条产生式规则。
    5)若节点有标记ε,则该节点为叶子,且是它父亲唯一的孩子(子节点存在标记ε,则是其父节点的唯一子节点,即其无兄弟节点)。
  3. 构造步骤:已知文法G[Z],对于w,若Z ⇒* w,则
    1)以开始符号Z为标记的根节点。
    2)对每一步推导,根据使用的产生式规则生成一颗子树,直到所有叶子节点从左到右的标记符号连接为w为止。
    若产生式规则为A→X1X2…Xn,则生成以A为根节点的子树,其孩子节点从左到右分别为X1,X2,…,Xn。
    eg:设文法G[E]:
    E→E+T|E-T|T
    T→TF|T/F|F
    F→(E)|i
    推导句型T+i
    (F-i)的语法树。

在这里插入图片描述

2.3.2 文法的二义性

  1. 定义:若一个文法存在某个句子对应两棵不同的语法树,则称这个文法是二义的。
  2. 特点:为编译程序的执行带来不确定性

2.3.3 二义性的消除

  1. 不改变文法:通过附加限制性条件(增加消歧规则,例如:每个if跟最近的尚未匹配的else匹配)消除二义性。
    寻找充分不必要条件,当文法满足这些条件时可确保文法是无二义性的。(即满足就是二义性,不满足也不一定是无二义性
    2.改变文法:改写原有文法(增加 V N {V}^N VN或者空产生式),把排除二义性的规则合并到原文法消除二义性。

2.4 文法的化简

  1. 若一个非终结符不能推导出终结字符串,则该非终结符是无用的,删除所有包括该非终结符的产生式规则。
  2. 若一个符号不能出现在文法的任何句型中,则该符号是无用的,删除所有包括该符号的产生式规则。

2.5 语言的分类

二型识别程序设计语言,三型定义程序设计语言

  • 0型文法(短语文法,上下文无关文法),每个产生式的左边α∈( V N {V}^N VN V T {V}^T VT)*且至少含有一个非终结符号
    1)定义:若文法G[Z]=( V N {V}^N VN V T {V}^T VT,P,Z)中的每个产生式规则的形式为:α→β,其中α∈( V N {V}^N VN V T {V}^T VT) 且至少含有一个非终结符号,而β∈( V N {V}^N VN V T {V}^T VT),则G[Z]为0型文法。
    2)特点:0型文法的能力相当于图灵机,识别能力最强
  • 1型文法(上下文敏感文法)
    1)定义:若文法G[Z]=( V N {V}^N VN V T {V}^T VT,P,Z)中的每个产生式规则的形式为:αAβ→αvβ,其中α,β∈( V N {V}^N VN V T {V}^T VT),A∈ V N {V}^N VN,v∈( V N {V}^N VN V T {V}^T VT)+,则G[Z]为1型文法。
  • 2型文法(上下文无关文法)(左边只是Vn,0型文法左边则( V N {V}^N VN V T {V}^T VT)*
    1)定义:若文法G[Z]=( V N {V}^N VN V T {V}^T VT,P,Z)中的每个产生式规则的形式为:A→v,其中A∈ V N {V}^N VN,v∈( V N {V}^N VN V T {V}^T VT)*,则G[Z]为2型文法。
    2)特点:语法结构上下文无关,一般用于识别程序设计语言的语法结构
  • 3型语言(正规文法)
    1)种类:右线性文法、左线性文法
    正则文法 左(右)线性文法
    2)右线性文法:若文法G[Z]=( V N {V}^N VN V T {V}^T VT,P,Z)中的每个产生式规则的形式为:A→αB或A→α,其中A,B∈ V N {V}^N VN,α∈( V N {V}^N VN V T {V}^T VT),则G[Z]为右线性文法。(非终结部分永远在右部)(最右推导)
    3)左线性文法:若文法G[Z]=( V N {V}^N VN V T {V}^T VT,P,Z)中的每个产生式规则的形式为:A→Bα或A→α,其中A,B∈ V N {V}^N VN,α∈( V N {V}^N VN V T {V}^T VT)
    ,则G[Z]为左线性文法。(非终结部分永远在左部)(最左推导)
    4)特点:作为定义程序设计语言规则的文法
    5)正规语言:3型文法定义的语言。

2.6课后问题

在这里插入图片描述

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VengaZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值