编译原理_文法基础

最新推荐文章于 2024-07-02 16:29:39 发布

GarfieldGCat

最新推荐文章于 2024-07-02 16:29:39 发布

阅读量1.3k

点赞数 1

分类专栏：编译原理文章标签：文法

本文链接：https://blog.csdn.net/garfieldgcat/article/details/89304783

版权

编译原理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

概述
形式描述
文法与语言的形式定义
文法的分类
句子和语言的产生

概述

1956年，语言学家Chomsky提出了形式语言理论，极大的促进了程序语言的发展，也促进了编译理论的发展。编译原理的主要内容就是应用形式语言理论，它贯穿于词法分析和语法分析两个阶段。

为了更系统的理解编译过程中的分析阶段，我们需要掌握一定的语言理论，而描述一个语言的语法与结构的规则称为文法。

形式描述

在深入理解编译是如何应用语言理论之前，需要先了解一些符号更方便的来描述，下面对一些符号及其定义做一些简单介绍。

字母表，字符：字母表用 $\sum$ 来表示，它是字符的非空有穷集合，字符是 $\sum$ 中的元素。如 $\sum=\{a,p,l,e\}$ 。
字符串：字符串是由 $\sum$ 组成的有穷序列。如"h"、“hi”、"hello"都是 $\sum$ 上的字符串。
字符串的长度：一般形容串长度用绝对符号来表示。如 $∣ h e l l o ∣ = 5$ 。
空串：由零个字符组成的序列，空串用 $\varepsilon$ 来表示， $|\varepsilon|=0$
连接：字符串S和T的连接指将字符串T接在S后，又表示为 $\cdot T$ 或 $S T$ 。另对于 $\sum$ 上的任何字符串S都满足 $\cdot \varepsilon = \varepsilon \cdot S = S$ 。
$\sum^*$ ：指包括 $\varepsilon$ 在内的 $\sum$ 上所有字符串的集合。
字符串的幂：即把字符串 $\alpha$ 自身连接n次的字符串，称为 $\alpha$ 的n次幂，记为 $\sigma ^n$ ，一些特殊规则与集合运算相同。
字符串集合运算：如设A、B代表 $\sum$ 上的两个字符串集合。
- 或（合并）： $\bigcup B = \{ \alpha | \alpha \in A 或 \alpha \in B \}$ 。
- 积（连接）： $\{ \alpha \beta | \alpha \in A 且 \beta\in B \}$ ，且也可以用逗号代替。
- 幂： $A^n = A A^{n-1} = A^{n-1}A (n>0)$ ，并规定 $A^0 = \varepsilon$ 。
- 正则闭包+： $A^+ = A^1 \bigcup A^2 \bigcup A^3 \bigcup \dots \bigcup A^n \bigcup \dots$
- 闭包*： $A^* = A^0 \bigcup A^+$ 。显然又有： $\sum^* = \sum^0 \bigcup \sum^1 \bigcup \sum^2 \bigcup \dots \bigcup \sum^n \bigcup \dots$

文法与语言的形式定义

Chomsky将文法G定义为四元组： $G = (V_N, V_T, P, S)$ 。

其中：

$V_N$ 是非空有限集，其中每个元素都为非终结符，因此也叫做非终结符集。
$V_T$ 也是非空有限集，但其中每个元素均为终结符，因此也叫做终结符集。
- 另外， $V_N \bigcap V_T = \empty $ ，即两者之间无公共元素。
P 是产生式的有限集，产生式的形式是写作“ $\alpha \to beta$ ”的规则，其中 $\alpha$ 称为产生式左部， $\beta$ 称为产生式的右部。
- 其中， $\alpha \in V^+$ ，且 $\alpha$ 中至少含有一个非终结符。且， $\beta \in V^*$ 。
- 若干个产生式如： $\alpha \to \beta_1, \alpha \to \beta_2, \dots, \alpha \to \beta_n$ 的左部相同情形时，可简写为： $\alpha \to \beta_1 | \beta_2 | \dots | \beta_n$ ，称作 $\beta_i (1 \leq i \leq n)$ 为 $\alpha$ 的一个候选式。
S是文法的开始符号，至少要在一条产生式的左部中出现， $\in V_N$ 。

文法的分类

文法分为0型、1型、2型、3型共4种类型，它们之间的差别主要是产生式的约束不同。其中，0型文法又是基础，其余文法均基于0型之上。如2型文法的约束必须同时满足0型与2型的约束。

0型文法

G的任一产生式 $\alpha \to \beta$ ，均有 $\alpha \in (V_N \bigcup V_T)^+$ ， $\alpha$ 至少含有一个非终结符，且 $\beta \in (V_N \bigcup V_T)^*$ 。
1型文法

G的任一产生式 $\alpha \to \beta (S \to \varepsilon除外)$ ，均有 $|\alpha| \leq |\beta|$ 。
2型文法

G的任一产生式形式 $\to \beta$ ，均有 $\in V_N, \beta \in (V_N \bigcup V_T)^*$ 。
3型文法

G的任一产生式形式 $\to a$ 或 $\to aB(或A\to Ba)$ ，均有 $\in V_N$ ，另有 $\in V_T$ 。

从分类定义中可知，0型文法具有最少的限制，逐级递增。

其中，0型文法又称为短语文法或无限制文法，它几乎对产生式没有任何限制。任何的0型语言都是递归可枚举的；反之任何递归可枚举的文法也必然是0型语言。

1型文法称为长度增加文法或上下文有关文法(CSG, Context-Sensitive Grammar)，这种文法意味着终结符的替换与上下文关联，并且不允许替换为 $\varepsilon$ 。如：若 $\alpha AB \to \alpha \gamma \beta$ 是1型文法的产生式，且 $\alpha, \beta$ 不全为空。则非终结符A只有在左边是 $\alpha$ ，右边是 $\beta$ 的上下文中才能替换成 $\gamma$ 。

2型文法称为上下文无关文法(CFG, Context-Free Grammar)，其非终结符的替换无需考虑上下文。

3型文法称为正规文法(RG, Regular Grammar)或线性文法。

另外，识别0型语言的自动机称作图灵机；识别1型语言的自动机称作线性界限自动机；识别2型语言的自动机称作下推自动机；识别3型语言的自动机称作有限状态自动机。

程序语言中的语法和词法规则主要是2、3型文法。另外，还对产生式增加两点限制：

不存在 $\to P$ 的产生式，因为除了增加二义性外毫无意义。
产生式中出现的非终结符 $P$ 必须是可达的，并且能推出终结符串，即存在并满足（ $\Rightarrow$ 的含义见推导与直接推导）： $\Rightarrow^* \alpha P \beta, P \Rightarrow^+ \gamma, \gamma \in V^*_T, (\alpha , \beta \in V^*)$

句子和语言的产生

上面介绍了文法的基本概况，文法本质上是用来指导语法和结构的，因此接下来就要看看如何使用文法、产生式等内容产生符合文法的语言及该过程的一些表示方法。

推导与直接推导

推导即从文法的开始符出发，反复使用产生式，将产生式左部的非终结符替换为右部的文法符号序列（展开产生式用 $\Rightarrow$ 表示），直到最终产生一个终结符的序列为止。

如有产生式 $\alpha \to \beta \in P, \gamma, \delta \in V^*$ ，则 $\gamma \alpha \delta \Rightarrow \gamma \beta \delta$ 称为文法中的直接推导，并称 $\gamma \alpha \delta$ 可直接推导出 $\gamma \beta \delta$ 。

对于P中的每个产生式 $\alpha \to \beta$ 显然都有 $\alpha \Rightarrow \beta$ 。

若文法中存在一个直接推导序列，即 $\alpha_0 \Rightarrow \alpha_1 \Rightarrow \alpha_2 \Rightarrow \dots \alpha_n (n > 0)$ 。则称 $\alpha_0$ 可推导出 $\alpha_n$ ， $\alpha_n$ 是 $\alpha_0$ 的一个推导，记为 $\alpha_0 \Rightarrow^+ \alpha_n$ 。另外，用 $\alpha_0 \Rightarrow^* \alpha_n$ 表示 $\alpha_0 = \alpha_n$ 。

归约与直接规约

归约和直接归约即推导与直接推导的逆过程。

若文法中有一个直接推导 $\alpha \Rightarrow \beta$ ，则称 $\beta$ 可直接归约成 $\alpha$ ，或称 $\alpha$ 是 $\beta$ 的直接归约。

若文法中有一个推导 $\gamma \Rightarrow^* \delta$ ，则称 $\delta$ 可归约成 $\gamma$ ，或称 $\gamma$ 是 $\delta$ 的归约。

句型、句子

从开始符能推导出的符号串称为文法的句型，即 $\alpha$ 是文法的一个句型，当且仅当存在推导 $\Rightarrow^* \alpha, \alpha \in V^*$ 。

若X为文法的一个句型，且 $\in V^*_T$ ，则称X是文法的一个句子，即仅含终结符的句型是一个句子。

语言

从文法的开始符出发，能推导出的所有句子称为文法G产生的语言，记为 $L (G)$ 。

若有文法 $G_1$ 与文法 $G_2$ 产生的语言相同（ $L(G_1) = L(G_2)$ ），则称这两个文法等价。

文法应用的一些例子

设 $G_1 = ( \{S\}, \{ a, b\}, P, S )$

其中，P为：
- ① $\to aS$
- ② $\to a$
- ③ $\to b$
这是一种3型文法，其所能产生的语言分析如下：

若选①号产生式，发现其是递归的，所以需要使用②、③产生式来作为出口终止递归，因此其可以产生的语言是 $\{ a^i(a|b) | i \geq 1 \}$ （其中第一个|表示"或"，后一个表示分离符，是i需满足的条件，下同）；而仅选②、③产生式可以产生的语言是 ${ a|b \}$ 。

因此 $G_1$ 可以产生的语言： $L(G_1) = \{ a^i (a|b) \space | i \geq 1 \} \bigcup \{a|b \} = \{a^i (a|b) \space | i \geq 0 \}$
设 $G_2 = (\{S\}, \{a, b\}, P, S )$

其中，P为：
- ① $\to aSb$
- ② $\to ab$
这是一种2型文法，其所能产生的语言分析如下：

若选①号产生式，发现其是递归的，需要用①号产生式作为出口。因此，①产生的语言为 $\{ a^n b^n | n \geq 2 \}$ ；若用②号产生式，则能产生的语言为 ${ab\}$ 。

不妨试试推导看看，假定我们用①号产生式递归两次后使用②号产生式，则推导展开如下 $\Rightarrow ①aSb \Rightarrow ①aaSbb \Rightarrow ②aaabbb$ 。可以发现，产生的语言中a的个数与b的完全相同。其中的非终结符具有自嵌套特性，所以又称其实自嵌套的上下文无关文法。

所以 $G_2$ 可以产生的语言为： $L(G_2) = \{ a^nb^n | n \geq 1 \}$ 。

GarfieldGCat

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
编译原理_文法基础

文章目录概述形式描述文法与语言的形式定义文法的分类句子和语言的产生推导与直接推导归约与直接规约句型、句子语言文法应用的一些例子概述1956年，语言学家Chomsky提出了形式语言理论，极大的促进了程序语言的发展，也促进了编译理论的发展。编译原理的主要内容就是应用形式语言理论，它贯穿于词法分析和语法分析两个阶段。为了更系统的理解编译过程中的分析阶段，我们需要掌握一定的语言理论，而描述一个语言的...
复制链接

扫一扫

专栏目录