编译原理-文法与语言

VengaZ

已于 2023-06-13 16:49:15 修改

阅读量1k

点赞数

分类专栏：编译原理文章标签：笔记

于 2023-06-12 16:28:34 首次发布

本文链接：https://blog.csdn.net/m0_56091756/article/details/131149474

版权

编译原理专栏收录该内容

25 篇文章 28 订阅

订阅专栏

文法与语言

2.1 符号串和语言

2.1.1 字母表

定义：字母表是有穷非空的符号集合。
表示：通常用字母表大写字母A，B，…Z和希腊字母Σ表示。
eg：A={0,1}，Σ={a,b,c,d}
说明
1）字母表包含了语言中所允许出现的一切符号。
2）字母表中的符号也称字符。

2.1.2 符号串

定义：由字母表中的符号组成的有穷序列。
表示：通常由t，u，v，w，x，y，z等小写英文字母来表示。
说明
1）符号串由构成的符号的种类、数量、顺序共同决定。
2）不包含任何符号的符号串称为空符号串，简称空串，用ε表示。
对于给定的字母表Σ，符号串的递归定义如下：
1）ε是Σ上的一个符号串。
2）若x是Σ上的符号串，a是Σ的符号，则xa是Σ上的符号串。并规定εa=a，aε=a。
3）y是Σ上的符号串，当且仅当y由1）和2）导出。
子符号串：一个非空符号串中若干连续符号组成的部分。
字符串的前缀和后缀
若z=abd是字母表Σ={a,b,c,d}上的符号串，则ε，a，ab，abd都是z的前缀；ε，d，bd，abd都是z的后缀。
符号串之间的运算
1）连接：符号串x，y的连接xy就是把符号串y写在x后面得到的字符串。
eg：若x=ab，y=cd，则xy=abcd，yx=cdab。
2）方幂：若x是符号串，xn表示n个按顺序连接。当n=0时，x0是空符号串ε。

术语	示例
\|S\|	\|abc\| = 3
ε	\|ε\| = 0
S1S2	abc def = abcdef
Sⁿ	(abc)³ = abcabcabc
S 的前缀 X	abc 的前缀有：ε, a, ab, abc
S 的后缀 X	abc 的后缀有：ε, c, bc, abc
S 的子串 X	abc 的子串有：ε, a, b, c, …
S 的真前缀	abc 的真前缀有：a, ab（去掉空和全）
S 的真后缀	（去掉空和全）
S 的真子串	（去掉空和全）
S 的子序列 X	abdf 是 abcdef 的一个子序列（和原序列顺序相同，可去掉一些字母）

术语	意义
Φ	空集合
{ ε }	空串是唯一元素
X = L ∪ M	并： X = { s\| s∈L or S ∈M }
X = L ∩ M	交：X = { s \| s∈L and S ∈M }
X = LM	连接： X = { st\|s∈L and t ∈ M }
X = L*	(星)闭包：X= L⁰∪L¹∪L²∪…
X = L+	正闭包：X= L¹∪L²∪L³∪…

2.1.3 语言

定义：由字母表上的一些符号串组成的集合。
说明
空集Ø是一个语言，仅含一个空符号串的集合{ε}也是一个语言。Ø和{ε}是不同的语言。
符号串集合之间的运算
1）并集
设A和B是符号串的集合，则A和B的并集定义为
A∪B = {x | x∈A or x∈B}。
2）乘积
设A和B是符号串的集合，则A和B的乘积定义为
AB = {xy | x∈A and y∈B}。
eg：若A={a,b}，B={b,c}，则AB = {ab,ac,bb,bc}。
对任意符号串集合A，有{ε}A = A{ε} = A。
3）幂运算
设A是符号串的集合，则A的幂运算定义为
A0 = {ε}
A1 = A
An = AAn-1（n>0）
eg：若A={0,1}，则A0={ε}，A1={0,1}，A2={00,01,10,11}。
4）正闭包与闭包
设A是符号串的集合，则集合A的正闭包A+和闭包A定义为
A+ = A1∪A2∪…∪An∪…
A = A0∪A1∪…∪An∪…
eg：若A={0,1}，则A+={0,1,00,01,10,11,000,001,…}，A*={ε,0,1,00,01,10,11,000,001,…}。

2.2 文法和语言的形式化定义

2.2.1 文法的形式化定义

产生式规则
1）定义：一个产生式规则是一个有序对(A，α)。通常写作A→α或A::=α。
”→"或”::=”表示“定义为”、“由…组成”、“生成”。
2）含义： A→α表示左部符号A生成右部符号串α。
3）若A→α；A→β，则可以写成A→α|β。”|”表示“或”。
4）非终结符号：产生式规则左部出现的符号。
5）终结符号：不是非终结符号的符号。
6）非终结符号既可以出现在产生式规则的左部，也可以出现在产生式规则的右部。终结符号不能出现在产生式规则的左部。（终结符号不能再生成产生式的右部）
7）非终结符号通常用大写字母或尖括号括起来的部分表示。
文法（产生式规则的集合）
1）定义：产生式规则的非空有穷集合。由四元组G=(VN，VT，P，Z)组成。
2）VN：是一个非空有穷集合。它的每个元素称为非终结符号。且VN∩VT=Ø。
3）VT：是一个非空有穷集合。它的每个元素称为终结符号。
4）P：是文法规则(产生式规则)的非空有穷集合，每个产生式规则的形式是A→α或A::=α，其中A∈VN，α∈(VN∪VT)。
5）Z：是一个非终结符号。称为开始符号或识别符号。它至少要在一条产生式规则的左部出现。由它开始识别定义的语言。（开始符号Z必须是非终结符号，并且至少在一条产生式规则左部出现，用于生成开始符号后的下一条语句）
6）通常不必将文法的四元组显式地表示出来，而仅需给出文法的产生式规则集P（由此即能知道Z，Vn，Vt）*。
7）对于两个不同的文法G[Z]和G’[E]，若这两个文法生成的语言相同（结果集相同，具有相同的句型以及句子），则称这两个文法是等价的。

2.2.2 语言的形式化定义

直接推导与推导（直接推导是一步，推导是任意步）
1）直接推导：令G=(VN，VT，P，Z)，若A→γ∈P，且α,β∈(VN∪VT)，则称αAβ直接推导出αγβ，表示成αA ⇒ βαγβ（这是上下文有关文法，1型文法） 。
2）推导：若存在一个直接推导序列： ${a}^{0}$ ⇒ ${a}^{1}$ ⇒ ${a}^{2}$ ⇒…⇒ ${a}^{n}$ ，则称这个序列是一个从 ${a}^{0}$ 至 ${a}^{n}$ 的长度为n的推导。
当n>0时， ${a}^{0}$ 至 ${a}^{n}$ 的推导记为 ${a}^{0}$ ⇒ ${ +a}^{n}$ ，表示从 ${a}^{0}$ 出发，经过1步或者若干步可推导出 ${a}^{n}$ 。
当n≥0时， ${a}^{0}$ 至 ${a}^{n}$ 的推导记为 ${a}^{0}$ ⇒ ${a}^{n}$ ，表示从 ${a}^{0}$ 出发，经过0步或者若干步可推导出 ${a}^{n}$ 。
句型和句子（句子是树叶，为终结符集，可以推导出来的则都为句型）
设有文法G[Z]，Z是文法G的开始符号。
1）句型：若Z ⇒* x，x∈(VN∪VT)，则称符号串x为文法G[Z]的句型。（非空终结或者非终结符集）
2）句子：若Z ⇒ x，x∈VT*，则称符号串x为文法G[Z]的句子。（非空终结符集）
3）句子一定是句型，句型不一定是句子。
语言（语言是句子的集合，并且每个句子都能从开始符号推导得来，是终结符集的闭包的子集）
1）定义：文法G[Z]产生的所有句子的集合（注意是句子不是句型）称为文法G所定义的语言，记为L(G[Z])，简写为L(G)。L(G)={x| Z ⇒+ x且x∈VT*}。
2）语言L(G)是VT*的子集。
3）L(G)中的每一个符号串均由终结符号组成，且该符号串能由开始符号Z推导出来。
递归规则(直接递归)
1）定义：一个产生式规则中，出现在左部的非终结符也出现在其右部。
2）种类：左递归、右递归、递归。
3）左递归：A→A…（非终结符在左侧）
4）右递归：A→…A （非终结符在右侧）
5）递归：A→…A…（非终结符在中间）
文法递归（任一非终结符，推导可得该非终结符本身）
1）定义：对于文法中的任一非终结符，若能建立一个推导过程，在推导所得的符号串中又出现该终结符本身，则称文法是递归的。
2）种类：左递归、右递归、递归。
3）左递归：A ⇒+ A…
4）右递归：A ⇒+ …A
5）递归：A ⇒+ …A…

2.2.3 短语、直接短语、句柄

直接短语一定是一个产生式的右部，但是产生式的右部不一定是当前句型的直接短语
高人，民生，活水则都不是当前句型的直接短语

在这里插入图片描述

设G[Z]是一个文法，假定αβδ是文法G的一个句型。
1）短语：若存在Z ⇒+ αAδ且A ⇒+ β，则称β是句型αβδ相对于非终结符A的短语。（即子树的边缘）
2）直接短语：若存在Z ⇒+ αAδ且A⇒β，则称β是句型αβδ相对于产生式规则A→β的直接短语。（高度为2的子树的边缘）
3）句柄：一个句型的最左直接短语称为该句型的句柄。

2.2.4规范推导和规范归约

最左推导：对一个推导序列中的每一步直接推导α⇒β，都是对α中的最左非终结符进行替换。
最右推导(规范推导)：对一个推导序列中的每一步直接推导α⇒β，都是对α中的最右非终结符进行替换。
规范句型：由规范推导得到的句型。
最左归约(规范归约)：规范推导的逆过程。

2.3 语法分析树与文法的二义性

2.3.1 语法分析树

语法分析树：一个句型推导过程的树形表示称为语法分析树，简称语法树。
满足条件：设G=( ${V}^N$ ， ${V}^T$ ，P，Z)是一个上下文无关文法（CFG）。
1）根节点的标记为Z。
2）根节点外的每个节点也有一个标记，它是 ${V}^N$ ∪ ${V}^T$ ∪{ε}中的符号。
3）每一个内部节点（非终结符，所以标记在 ${V}^N$ ）的标记A必在VN中。
4）若某个内部节点标记为A，其子节点的标记从左到右分别为X1，X2，…，Xn，则A→X1X2…Xn必为P中的一条产生式规则。
5）若节点有标记ε，则该节点为叶子，且是它父亲唯一的孩子（子节点存在标记ε，则是其父节点的唯一子节点，即其无兄弟节点）。
构造步骤：已知文法G[Z]，对于w，若Z ⇒* w，则
1）以开始符号Z为标记的根节点。
2）对每一步推导，根据使用的产生式规则生成一颗子树，直到所有叶子节点从左到右的标记符号连接为w为止。
若产生式规则为A→X1X2…Xn，则生成以A为根节点的子树，其孩子节点从左到右分别为X1，X2，…，Xn。
eg：设文法G[E]：
E→E+T|E-T|T
T→TF|T/F|F
F→(E)|i
推导句型T+i(F-i)的语法树。

在这里插入图片描述

2.3.2 文法的二义性

定义：若一个文法存在某个句子对应两棵不同的语法树，则称这个文法是二义的。
特点：为编译程序的执行带来不确定性。

2.3.3 二义性的消除

不改变文法：通过附加限制性条件（增加消歧规则，例如：每个if跟最近的尚未匹配的else匹配）消除二义性。
寻找充分不必要条件，当文法满足这些条件时可确保文法是无二义性的。（即满足就是二义性，不满足也不一定是无二义性）
2.改变文法：改写原有文法（增加 ${V}^N$ 或者空产生式），把排除二义性的规则合并到原文法消除二义性。

2.4 文法的化简

若一个非终结符不能推导出终结字符串，则该非终结符是无用的，删除所有包括该非终结符的产生式规则。
若一个符号不能出现在文法的任何句型中，则该符号是无用的，删除所有包括该符号的产生式规则。

2.5 语言的分类

二型识别程序设计语言，三型定义程序设计语言

0型文法(短语文法,上下文无关文法)，每个产生式的左边α∈( ${V}^N$ ∪ ${V}^T$ )*且至少含有一个非终结符号
1）定义：若文法G[Z]=( ${V}^N$ ， ${V}^T$ ，P，Z)中的每个产生式规则的形式为：α→β，其中α∈( ${V}^N$ ∪ ${V}^T$ ) 且至少含有一个非终结符号，而β∈( ${V}^N$ ∪ ${V}^T$ )，则G[Z]为0型文法。
2）特点：0型文法的能力相当于图灵机，识别能力最强。
1型文法(上下文敏感文法)
1）定义：若文法G[Z]=( ${V}^N$ ， ${V}^T$ ，P，Z)中的每个产生式规则的形式为：αAβ→αvβ，其中α,β∈( ${V}^N$ ∪ ${V}^T$ )，A∈ ${V}^N$ ，v∈( ${V}^N$ ∪ ${V}^T$ )+，则G[Z]为1型文法。
2型文法(上下文无关文法)（左边只是Vn，0型文法左边则( ${V}^N$ ∪ ${V}^T$ )*
1）定义：若文法G[Z]=( ${V}^N$ ， ${V}^T$ ，P，Z)中的每个产生式规则的形式为：A→v，其中A∈ ${V}^N$ ，v∈( ${V}^N$ ∪ ${V}^T$ )*，则G[Z]为2型文法。
2）特点：语法结构上下文无关，一般用于识别程序设计语言的语法结构。
3型语言(正规文法)
1）种类：右线性文法、左线性文法
正则文法左（右）线性文法
2）右线性文法：若文法G[Z]=( ${V}^N$ ， ${V}^T$ ，P，Z)中的每个产生式规则的形式为：A→αB或A→α，其中A,B∈ ${V}^N$ ，α∈( ${V}^N$ ∪ ${V}^T$ )，则G[Z]为右线性文法。（非终结部分永远在右部）（最右推导）
3）左线性文法：若文法G[Z]=( ${V}^N$ ， ${V}^T$ ，P，Z)中的每个产生式规则的形式为：A→Bα或A→α，其中A,B∈ ${V}^N$ ，α∈( ${V}^N$ ∪ ${V}^T$ )，则G[Z]为左线性文法。（非终结部分永远在左部）（最左推导）
4）特点：作为定义程序设计语言规则的文法
5）正规语言：3型文法定义的语言。

2.6课后问题

在这里插入图片描述

VengaZ

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
编译原理-文法与语言

产生式规则一个产生式规则是一个有序对(A，α)。通常写作A→α或A::=α。”→"或”::=”表示“定义为”、“由…组成”、“生成”。2）含义： A→α表示左部符号A生成右部符号串α。3）若A→α；A→β，则可以写成A→α|β。”|”表示“或”。4）非终结符号：产生式规则左部出现的符号。5）终结符号：不是非终结符号的符号。6）非终结符号既可以出现在产生式规则的左部，也可以出现在产生式规则的右部。终结符号不能出现在产生式规则的左部。（终结符号不能再生成产生式的右部）7）
复制链接

扫一扫