编译原理第二章笔记 -- 上下文无关文法

Hydrion-Qlz

已于 2023-03-09 20:38:47 修改

阅读量1.2k

点赞数 2

分类专栏： # 编译原理文章标签：编辑器编译原理

于 2022-06-13 23:56:28 首次发布

本文链接：https://blog.csdn.net/qq_46311811/article/details/125269784

版权

编译原理专栏收录该内容

8 篇文章

订阅专栏

本文中内容整理西安交通大学软件学院吴晓军老师的ppt中，仅供学习使用，请勿转载或他用
参考教材：《程序设计语言编译原理》（第3版）陈火旺等国防工业出版社

程序语言的语法描述与分析

目的

对语言的语法结构进行形式描述
从形式描述中，研究语法分析器的构造。（分析法递归子程序和算符优先分析法）

上下文无关文法：context-free grammar

引言

文法(grammar)

问题：如何描述语言

定义：文法是描述语言的语法结构的形式规则（即语法规则）

目的：解决语言的有穷说明问题，包含对语法的描述，但却不表达任何语义

文法的描述应该达到以下要求

形式上严格、准确
易于理解
具有较强的描述能力
有利于句子的分析和翻译，构造语法分析器

文法分类

课本上有具体介绍这四类文法，看看了解一下

分为4类：0、1、2、3型文法

与程序语言语法有关的是上下文无关文法

文法和语言

一个上下文无关文法G是一个四元式 $V_T,V_N,S,P)$ ，其中：

这里的闭包指的是文法符号

$V_T$ ：是非空有限集，它的每个元素是终结符号；
$V_N$ ：是非空有限集，它的每个元素是非终结符号；
$V_T\cap V_N=\Phi \qquad V_T\cup V_N = V$
S： $S\in V_N$ ，称为开始符号
$P$ ：产生式集合（有限），每个产生式的形式是 $\{P\rightarrow\alpha|P\in V_N,\alpha\in(V_T\cup V_N)^*,S至少一次为P\}$

例子

G1（E）中的E表示开始符号，在这说明一下

| 表示或

-> is defined as 被定义为

由此可见，文法G1（E）所定义的语言是算术表达式。

如： $i d + i d, i d * (i d + i d)$ 等，他表达了简单算数表达式由id用A连接起来

该文法的：

$V_N$ 是出现在 $P$ 的左部的所有符号集合
$V$ 是 $P$ 的所有符号，所以$V_T = V \setminus V_N $
$S$ 是该文法所定义的句子名字
所以：写出了 $P$ 就能找出其他三元素

定义

终结符

是用以组成语言中的串的基本符号，与程序语言中的“单词”是同义语；

如：表达式 $i d + (i d) * (- i d)$ 中，+、-、*、/、id均为终结符

非终结符

是标记某种串的集合的特定符号，与“语法变量”、”语法范畴“是同义词‘

如：表达式、运算符都表示一个串的集合

开始符号

一个 $V_N$ ，标记最终感兴趣的语法范畴。其他非终结符用以定义其它的串集，这有助于定义该语言，也有助于为它处理的语言提供一个分层的结构

产生式

规定由终结符和别的语法范畴组成一个新的语法范畴的办法

结构：非终结符->一串非终结符和终结符

例子：

如果右部只有一个，则直接叫做右部，有多个叫做右部候选式

例如如下表达式：

该语法范畴叫做句子，在程序语言中叫做程序

语言的句子是由一串 $V_N$ 定义，到最后才是一串 $V_T$

习惯记号

记号	含义
$V_N$	大写字母A，B，C等
$V_T$	小写字母，0-9，+，- 等运算符，标点，分界符，id（自己定义的标识符的代表），if
$X 、 Y 、 Z$	文法符号，可以表示 $V_N$ 或 $V_T$ 的一个符号
$u、v、w\cdot\cdot\cdot z$	$V_T^*$ 中的串
$\alpha,\beta,\gamma$	文法符号 $\in(V_T\cup V_N)$
$S$	开始符号，第一个产生式中出现
$\rightarrow$	定义为（元语言符号）
\|	或（元语言符号）

问题：表达式语言无穷，如何定义？

有穷条产生式，产生无穷集，要求产生式必须递归
定义算数表达式用了两条浓缩的产生式。一般地，定义一个语言的产生式是很复杂的
对递归的算术表达式的产生式，进行反复的推导产生表达式语言

推导和语言

问题：用文法如何定义一个语言？

思路：从S出发，反复使用 $P$ ，对非终结符替换展开，最后得到全由终结符串组成的一个串

涉及到：替换、推导、句型、句子、语言

直接推出

是两个字符串之间的一种关系 $R$ 。

如： $(\alpha\ A\ \beta)\ R \ (\alpha \ \gamma\ \beta)$ ，表示：若 $A\rightarrow \gamma\in P,\alpha、\beta\in V^*$ ，则 $R$ 就是直接推出， $R$ 记为 $\Rightarrow$ 。即： $\alpha\ A \ \beta \Rightarrow \alpha \ \gamma\ \beta$

其中 $\alpha,\beta$ 都是文法符号串

推导

如两个串 $u_o,u_n$ ，存在一个串序列 $u_o\Rightarrow u_1 \Rightarrow \cdot\cdot\cdot \Rightarrow u_n$ ，则 $u_o R_1 u_n，R_1$ 记为 $或\stackrel{*}{\Rightarrow}$

$u_o\stackrel{+}{\Rightarrow}u_n$ ：表示从 $u_o$ 出发，经一步或若干步，可以推导出 $u_n$
$u_o\stackrel{*}{\Rightarrow}u_n$ ：表示从 $u_o$ 出发，经零步或若干步，可以推导出 $u_n$

R1叫做推导关系，有两种表示形式

两种的区别类似于闭包的加号和乘号，0步的话表示开始和结束都是一样的（即 $u_o$ 和 $u_1$ 一样）

从文法的开始符号出发，则一定用的是加号去表达，开始是非终结符，最后结束是终结符，因为至少要经过一步推导

推导的最后是由终结符组成的终结符串

怎样由推导引出语言

只需要在推导中加入一些限制，即对 $u_o\stackrel{+}{\Rightarrow}u_n$ 和 $u_o\stackrel{*}{\Rightarrow}u_n$ 加一点限制

令 $u_o$ 为S，即推导要从开始符号开始，那么： $S\stackrel{*}{\Rightarrow}\alpha,\alpha\in V^*$ ，则称 $\alpha$ 为G的句型
如果在要求 $\alpha\in V_T^*$ ，则 $\alpha$ 为G的句子
文法G所产生的句子的全体是一个语言，记为L（G）。 $L(G)=\{\alpha |S\stackrel{+}{\Rightarrow} \alpha \ \&\ \alpha \in V_T^* \}$

说明：

由文法G定义语言L需要依赖一种运算，即关系 $\stackrel{+}{\Rightarrow}$ 。 $V_T^*$ 中有许多串，只有那些 $(S, u), (S, v)$ 存在 $\stackrel{+}{\Rightarrow}$ 关系的才是语言中的句子
$\alpha ,\beta$ 是句型，表示 $(S,\alpha)(S,\beta)$ 有 $\stackrel{*}{\Rightarrow}$ 的关系，但他们的构成是不全属于 $V_T$ 的字符
G的句型集，是指存在 $S\stackrel{*}{\Rightarrow}\alpha$ 关系的所有 $\alpha$ ，该集的子集是L(G)
$V^*\supset 句型集\supset L(G)$

句子一定是终结符串，终结符串不全是句子（参考说明1，必须与开始字符存在 $\stackrel{+}{\Rightarrow}$ 关系才可以）

句型是终结符和非终结符的混合串，但是他们的混合串不一定全是句型（参考说明2，必须与开始字符存在 $\stackrel{*}{\Rightarrow}$ 关系才可以）

语言是由句子构成的

$V_T^*$ 不代表语言(表示的意思是所有终结字符串)， $V^*$ 不代表句型集（代表所有字符和非终结字符的串）

例子

根据文法G： $E\to E+E|E*E|(E)|i$ ，句子 $i_1*(i_2+i_3)$ 推导过程如下：

最左推导： $E\Rightarrow E*E\Rightarrow i_1*E \Rightarrow i_1*(E)\Rightarrow i_1*(E+E)\Rightarrow i_1*(i_2+E) \Rightarrow i_1*(i_2*i_3)$
最右推导： $E\Rightarrow E*E\Rightarrow E*(E)\Rightarrow E*(E+E)\Rightarrow E*(E+i_3) \Rightarrow E*(i_2*i_3)\Rightarrow i_1*(i_2*i_3)$