编译原理(1)——文法和语言

最新推荐文章于 2022-10-27 19:50:59 发布

一只小林同学

最新推荐文章于 2022-10-27 19:50:59 发布

阅读量457

点赞数

分类专栏：编译原理文章标签：字符串编译器 compiler

本文链接：https://blog.csdn.net/qq_40401156/article/details/106982180

版权

编译原理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

编译原理(1)——文法和语言

一、符号串与语言

1、字母表： 字母表 $\Sigma$ 是一个有穷符号集合

字母表的运算：
- 并集
- 乘积（交集）：若 $\Sigma_1$ 和 $\Sigma_2$ 是两个字母表，则他们的乘积 $\Sigma_1\Sigma_2=\{ab|a\in\Sigma_1,b\in\Sigma_2\}$
- 幂运算：字母表 $\Sigma$ 的幂运算( $\epsilon$ 代表空串)
$\begin{cases} \Sigma^0=\{\epsilon\}\\ \Sigma^n=\Sigma^{n-1}\Sigma\:\:\:\:n>=1 \end{cases}$
- 正闭包运算： $\Sigma^+$
$\Sigma^+=\Sigma\bigcup\Sigma^2\bigcup\Sigma^3\bigcup......$

例如：
${a,b,c,d\}^+=\{a,b,c,d,\\aa,ab,ac,ad,ba,bb,bc,bd...,\\aaa,aab,aac,aad,aba,abb,abc,...\}$
由此可见，字母表的正闭包指长度整数的符号串构成的集合
- 闭包运算
$\Sigma^*=\Sigma^0\bigcup\Sigma\bigcup\Sigma^2\bigcup\Sigma^3\bigcup......$

由此可见，闭包是任意符号串构成的集合，这个符号串长度可以为0*

2、字符串： 设 $\Sigma$ 是一个字母表， $\forall\:x\in\Sigma^*$ ，x称为是 $\Sigma$ 上的一个字符串；

串是字母表中的符号的一个有穷序列；
串s的长度通常记为|s|，值s中符号的个数
串的运算：
- 连接运算：若x和y是串，则x和y的连接时把y附加到x后面而形成的串，记作xy；要注意的是，空串是连接预算的单位元，即对任何字符串都有， $\epsilon s=s\epsilon=s$
  
  若x，y，z是三个字符串，若x=yz，则称y是x的前缀，称z是x的后缀
- 幂运算：
  $\begin{cases} s^0=\epsilon\\ s^n=s^{n-1}s,n>=1 \end{cases}$
  例如： $s^1=s^0s=\epsilon s=s,s^2=ss,s^3=sss,...$

二、文法

文法的形式化定义：
$\begin{aligned} &文法G=（V_T,V_N,P,S）\\ &其中：\\ & \:\:V_T表示终结符集合，终结符是文法所定义的语言的基本符号\\ & \:\:V_N表示非终结符集合，非终结符是用来表示语法成分的符号，可以用来进一步推导出其他的语法成分\\ & \:\:P表示产生规则，描述了将终结符和非终结符组合成串的方法\\ & \:\:\:\:\:产生式的一般形式：\alpha \to\beta\\ & \:\:\:\:\:其中：\\ & \:\:\:\:\:\alpha\in(V_T\bigcup V_N)^+，且\alpha中至少包含V_N中的一个元素，称为产生式的头或左部\\ & \:\:\:\:\:\beta\in(V_T\bigcap) V_N)^*，称为产生式的体或右部\\ & \:\:S表示开始符号，S\in V_N，开始符号表示的是该文法中最大的句法成分 & \:\:V_T\bigcap V_N=\Phi\\ & \:\:V_T\bigcup V_N=文法符号集 \end{aligned}$

实例：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ &如G=（\{id,+,*,…$
此外在不引起歧义的情况下，可以将文法简写，只写产生式规则，例如上面的文法可以简写为

$G:E\to E+E\\ \:\:E\to E*E\\ \:\:E\to (E)\\ \:\:E\to id\\$
产生式的简写：对一组有相同左部的 $\alpha$ 产生式 $\alpha\to\beta_1,\alpha\to\beta_2,...,\alpha\to\beta_n$ ，可以简写为： $\alpha\to\beta_1|\beta_2|...|\beta_n$

例如上面的产生式可以简写为： $E\to E+E|E*E|(E)|id$

三、语言

1、推导和规约：

直接推导：给定文法 $G=\{V_T,V_N,P,S\}$ ，若 $\alpha\to\beta\in P$ ，则可以将符号串 $\gamma\alpha\delta中的\alpha替换为\beta$ ，也就是说，将 $\gamma\alpha\delta重写为\gamma\beta\delta，记作\gamma\alpha\delta\Rightarrow\gamma\beta\delta$ ，此时，称文法中的符号串 $\gamma\alpha\delta$ 直接推导出 $\gamma\beta\delta$

简而言之，直接推导就是用产生式的右部替换产生式的左部
推导和归约：若 $\alpha_0\Rightarrow\alpha_1,\alpha_1\Rightarrow\alpha_2,\alpha_2\Rightarrow\alpha_3,...,\alpha_{n-1}\Rightarrow\alpha_n$ ，可以记作 $\alpha_0\Rightarrow\alpha_1\Rightarrow\alpha_3\Rightarrow...\Rightarrow\alpha_{n-1}\Rightarrow\alpha_n$ ，称符号串 $\alpha_0$ 经过n步推导出 $\alpha_n$ ，可以简记为 $\alpha_0\Rightarrow^n\alpha_n$ ，或这可以称 $\alpha_n$ 可以归约到 $\alpha_0$
- $\Rightarrow^+$ 表示经过正数步推导
- $\Rightarrow^*$ 表示若干步（可以是0）推导
- 推导的每一步是用产生式的右部替换产生式的左部，而归约是用产生式的左部替换产生式的右部
最右推导：对于推导过程中的每一步 $\alpha\Rightarrow\beta$ ，其都是将 $\alpha$ 中最右侧的非终结符进行替换
最左推导：对于推导过程中的每一步 $\alpha\Rightarrow\beta$ ，其都是将 $\alpha$ 中最左侧的非终结符进行替换

2、句型和句子

句型：若 $S\Rightarrow^*\alpha,\alpha\in(V_T\bigcup V_N)^*$ ，则称 $\alpha$ 是文法G的一个句型
- 一个句型中可以包含终结符，也可以包含非终结符，也可能是空串
句子：若 $S\Rightarrow^*w,w\in V_T^*$ ，则称w是文法G的一个句子
- 句子是不包含非终结符的句型
  
  例如在以下推导过程中，值由little boy eats apple才能说是句型，其他的每一步都是句型
  $KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ &<句子>\Rightarr…$

3、语言的形式化定义： 由文法G的开始符号S推导出的所有句子构成的集合称为文法G生成的语言，记为L(G)，即： $L(G)=\{w|S\Rightarrow^*w,w\in V_T^*\}$

4、语言的运算

并运算： $L\bigcup M=\{s|s属于L或s属于M\}$
连接： $LM=\{st|属于L且t属于M\}$
幂运算：
$\begin{cases} L^0=\{\epsilon\}\\ L^{n-1}=L^{n-1}L,n>=1 \end{cases}$
闭包： $L^*=\bigcup^\infty_{i=0}L^i$
正闭包： $L^*=\bigcup^\infty_{i=1}L^i$

四、文法的分类

1、0型文法： 若文法G[Z]中的每一条产生式规则都如： $\alpha\rightarrow\beta$ ，其中 $\alpha\in(V_T\bigcup V_N)^*$ 且至少含有一个非终结符，则称G[Z]为0型文法。0型文法没有对文法做任何限制，故又称无限制文法。由0型文法生成的语言又称0型语言

2、1型文法： 若文法G[Z]中的每一条产生式规则都如： $\alpha A\beta\rightarrow\alpha v\beta$ ，其中 $\alpha,\beta\in(V_T\bigcup V_n)^*,A\in V_N,v\in(V_T\bigcup V_N)^+$ ，则称G[Z]为1型文法。或者我们可以这样理解： $(\forall\alpha\rightarrow\beta)\in P,|\alpha|\leqslant|\beta|$ 。1型文法又称上下文有关文法。1型文法中不包含空产生式

3、2型文法： 若文法G[Z]中的每一条产生式规则都如： $A\rightarrow v$ ，其中 $A\in V_N,v\in(V_T\bigcup V_n)^*$ ，则称G[Z]为2型文法。即2型文法的右部都不包含非终结符。2型文法又称上下文无关文法

4、3型文法： 3型文法分为右线性文法和左线型文法，在3型文法中，产生式的右部最多只有一个非终结符，且总在同一侧。3型文法又称正则文法

右线性文法： 若文法G[Z]中的每一个产生式规则都如： $A\rightarrow\alpha B或A\rightarrow\alpha$ ，其中 $A,B\in V_N,\alpha\in(V_T\bigcup V_N)^*$ ，则称文法G[Z]为右线性文法
左线型文法： 若文法G[Z]中的每一个产生式规则都如： $A\rightarrow B\alpha或A\rightarrow\alpha$ ，其中 $A,B\in V_N,\alpha\in(V_T\bigcup V_N)^*$ ，则称文法G[Z]为左线型文法

在不考虑空串的情况下，四种文法之间是逐级限制的关系，0型文法没有任何限制，在0型文法的基础上使产生式左部的长度适中小于等于产生式右部的长度得到1型文法，在1型文法的基础上使产生式的左部均为非终结符得到2型文法，在2型文法的基础上，对产生式右部进行限制得到3型文法

五、语法分析树

1、语法分析树：

根节点：为文法的开始符号
内部节点：表示对一个产生式 $A\rightarrow B$ 的应用该节点表示对应的产生式的左部，而该节点的子节点从左到右构成了对应产生式的右部
叶子节点：既可以是非终结符也可以是终结符，从左到右排列叶子节点得到的字符串称为该分析树的产出或边缘

给定一个推导 $S\Rightarrow\alpha_1\Rightarrow\alpha_2\Rightarrow...\Rightarrow\alpha_n$ ，对于推导过程中得到每一个句型 $\alpha_i$ ，都可以构造出一个产出为 $\alpha_i$ 的分析树

例如对于文法G[E]：
$E\rightarrow E+E\\ E\rightarrow E*E\\ E\rightarrow -E\\ E\rightarrow (E)\\ E\rightarrow id$
通过推导过程： $E\Rightarrow-E\Rightarrow-(E)\Rightarrow-(E+E)\Rightarrow-(id+E)\Rightarrow-(id+id)$ ，可以得到如下分析树：
$E\\ \swarrow\searrow\\ -\ \ \ \ \ \ \ E\\ \ \ \ \ \ \ \ \ \ \swarrow\downarrow\searrow\\ \ \ \ \ \ \ \ \ \ \ (\ \ \ \ E\ \ \ \ )\\ \ \ \ \ \ \ \ \ \ \ \swarrow\downarrow\searrow\\ \ \ \ \ \ \ \ \ \ \ \ E\ +\ E\\ \ \ \ \ \ \ \ \ \ \ \downarrow\ \ \ \ \ \ \ \ \ \downarrow\\ \ \ \ \ \ \ \ \ \ id\ \ \ \ \ \ id$
2、短语、直接短语与句柄

给定一个句型，其分析树中的每一颗子树的产出称为该句型的一个短语，若子树只有父子两代节点，即分析树的高度为2，那么这颗子树的产出称为该句型的一个直接短语，一个句型的最左直接短语称为该句型的句柄。例如下面的这颗分析树，它的短语包括：-(E+E)，(E+E)，E+E，它的直接短语是E+E，它的句柄是E+E
$E\\ \swarrow\searrow\\ -\ \ \ \ \ \ \ E\\ \ \ \ \ \ \ \ \ \ \swarrow\downarrow\searrow\\ \ \ \ \ \ \ \ \ \ \ (\ \ \ \ E\ \ \ \ )\\ \ \ \ \ \ \ \ \ \ \ \swarrow\downarrow\searrow\\ \ \ \ \ \ \ \ \ \ E\ +\ E\\$
3、文法的二义性

若一个文法存在某个句子对应的两颗不同的语法树，则称该文法是二义的。例如以下文法：
$E\rightarrow i|E+E|E*E|(E)$
其可以构造出这样的句型： $i * i + i$ ，而该句型可以构造出如下两种语法树：
$\ \ \ \ \ \ \ \ \ E\\ \ \ \ \ \ \ \ \ \ \swarrow\downarrow\searrow\\ \ \ \ \ \ \ \ \ \ E\ +\ E\\ \ \ \ \ \swarrow\downarrow\searrow\ \ \ \ \ \ \downarrow\\ \ \ \ E\ \ *\ \ E\ \ \ \ i\\ \downarrow\ \ \ \ \ \ \ \ \ \ \ \downarrow\ \ \ \\ i\ \ \ \ \ \ \ \ \ \ \ \ i\ \ \ \$

$E\\ \swarrow\downarrow\searrow\\ E\ \ *\ \ E\\ \ \ \ \downarrow\ \ \ \ \ \ \swarrow\downarrow\searrow\\ \ \ \ \ \ \ i\ \ \ \ \ E\ +\ E\\ \ \ \ \ \ \ \ \ \ \ \ \ \downarrow\ \ \ \ \ \ \ \ \ \ \downarrow\\ \ \ \ \ \ \ \ \ \ \ i\ \ \ \ \ \ \ \ \ \ \ i$

因此该文法是二义的

二义性的消除：
- 不改变文法，仅附加一些限制性条件，以此生成确定的语法树，例如上面的文法，可以规定*优先级高于+，且他们都服从左结合
- 改变文法，构造一个等价的新文法，把排除二义性的规则合并到元文法中，例如上面的文法，可以改写成：
  $E\rightarrow E+T|T\\ T\rightarrow T*F|F\\ F\rightarrow(E)|i$

一只小林同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
编译原理(1)——文法和语言

编译原理(1)——文法和语言一、符号串与语言1、字母表：字母表Σ\SigmaΣ是一个有穷符号集合字母表的运算：并集乘积（交集）：若Σ1\Sigma_1Σ1和Σ2\Sigma_2Σ2是两个字母表，则他们的乘积Σ1Σ2={ab∣a∈Σ1,b∈Σ2}\Sigma_1\Sigma_2=\{ab|a\in\Sigma_1,b\in\Sigma_2\}Σ1Σ2={ab∣a∈Σ1,b∈Σ2}幂运算：字母表Σ\SigmaΣ的幂运算(ϵ\epsilonϵ代表空串){Σ0={ϵ}Σn=Σn−
复制链接

扫一扫