编译原理复习总结-耗子尾汁

吾仄lo咚锵

已于 2022-05-28 15:19:26 修改

阅读量6.6k

点赞数 33

分类专栏：抱佛脚文章标签：编译原理编译器词法分析语法分析中间代码

于 2021-06-23 01:03:38 首次发布

本文链接：https://blog.csdn.net/qq_45034708/article/details/118097217

版权

抱佛脚专栏收录该内容

5 篇文章 13 订阅

订阅专栏

文章目录

引论
语法描述
词法分析
语法分析
- 自上向下分析
- 自下向上分析
属性文法
语义分析和是中间代码产生
优化
目标代码生成

在这里插入图片描述

引论

编译程序运行框架

词法分析器	输入源程序，进行词法分析，输出单词符号。
语法分析器	对单词符号串进行语法分析，识别出各类语法单位
语义分析与中间代码产生器	按语义规则对归约出的语法单位进行语义分析并翻译成中间代码。
优化器	对中间代码进行优化处理
目标代码生成器	把中间代码翻译成目标程序
表格管理	登记源程序的各类信息和编译各阶段的进展情况
出错处理	对出现在源程序中的错误进行处理

编译前端和后端

前端
主要由与源语言有关但与目标机无关的那些部分（词法分析、语法分析、语义分析、中间代码产生）组成，有的代码优化工作也给包括在前端。
后端
包括编译程序中与目标机有关的那些部分（与目标机有关的代码优化、目标代码生成），后端通常依赖中间语言而不是源语言。

编译过程五个阶段
词法分析、语法分析、语义分析与中间代码产生、优化、目标代码生成。
前四个阶段与硬件无关，最后一个阶段与硬件有关。
汇编语言和高级语言的区别
汇编语言跟机器指令一一对应，高级语言不跟机器指令一一对应。

语法描述

乔姆斯基四型文法

乔姆斯基(Chomsky)把文法分成四种类型，即0型、1型、2型和3型。0型强于1型，1型强于2型，2型强于3型。这几类文法的差别在于对产生式加不同的限制。

0型	短语文法	能力相当于图灵机，都是递归可枚举的
1型	上下文有关法	即替换非终结符时考虑上下文 $\alpha$ 和 $\beta$ ， $\alpha A\beta→\alpha\gamma\beta$
2型	上下文无关法	即无需考虑上下文
3型	右线性文法	另一种形式左线性文法，也称正规文法， $A→B\alpha$ 或 $A→\alpha$

上下文无关法
一个上下文无关法G是一个四元式 $G=(V_T,V_N,S,P)$ ，其中
$V_T$ ：终结符集合（非空）
$V_N$ ：非终结符集合（非空），且 $V_T\cap V_N=\varnothing$
$S$ ：文法的开始符号， $S\in V_N$
$P$ ：产生式集合（有限），每个产生式形式为 $P\rarr\alpha,P\in V_N,\alpha\in (V_T\cup V_N)^*$ ，开始符 $S$ 至少必须在某个产生式的左部出现一次。
句型、句子
假定G是一个文法，S是它的开始符号，称 $S\overset{*}{\implies}\alpha$ 是一个句型，称仅含终结符的句型是一个句子。

btw，符号 $\overset{*}{\implies}$ 指经过0步及以上推导；符号 $\overset{+}{\implies}$ 指经过1步及以上推导；终结符指最终出现在程序中符号；非终结符是为了描述语法而创造出来的符号，不会出现在程序中。

例 $(i * i + i)$ 是文法G(E): $E \to i ∣ E + E ∣ E * E ∣ (E)$ 的一个句子，证明： $E\implies(E)\implies(E+E)\implies(E*E+E)\implies(i*E+E)\implies(i*i+E)\implies(i*i+i)$
语言
文法G所产生的句子的全体就是一个语言，记为L(G)， $L(G)=\{\alpha|S\overset{+}{\implies}\alpha\&\alpha\in{V_{T}^{*}}\}$ 。

例文法G₁:A→c|Ab的语言L(G₁)={cbⁿ|n≥0}；
文法G₂:S→AB,A→aA|a,B→bB|b的语言L(G₂)={a^mbⁿ|m,n≥1}。

词法分析

用状态图和正规式描述标识符

结点代表状态，用圆圈表示。状态之间用箭弧连结。箭弧上的标记（字符）代表在射出节点状态下可能出现得输入字符或字符类。
其中0为初态，2为终态（用双圈表示）。终态结上打个星号*意味着多读进了一个不属于标识符部分得字符，应把它退还给输入串。

令 $\Sigma=\{A,B,0,1\}$

正规式	正规集
(A\|B)(A\|B\|0\|1)^*	$\Sigma$ 上“标识符”的全体
(0\|1)(0\|1)^*	$\Sigma$ 上“数”的全体

确定有限自动机(DFA)
一个确定有限自动机M是一个五元式 $M=(S,\Sigma,\delta,s_0,F)$ ，其中
$S$ ：有穷状态集
$\Sigma$ ：输入字母表（有穷）
$\delta$ ：状态转换函数，为 $S×\Sigma\rarr S$ 的单值部分映射， $\delta(s, a)=s’$ 表示：当现行状态为 $s$ ，输入字符为 $a$ 时，将状态转换到下一状态 $s ’$ 。我们把 $s ’$ 称为 $s$ 的一个后继状态。
$s_0\in S$ ：初态（唯一）
$F\sube S$ ：终态集（可空）
非确定有限自动机(NFA)
一个非确定有限自动机M是一个五元式 $M=(S,\Sigma,\delta,S_0,F)$ ，其中
$S$ ：有穷状态集
$\Sigma$ ：输入字母表（有穷）
$\delta$ ： $S×\Sigma^*\rarr2^S$
$S_0\sube S$ ：初态集（非空）
$F\sube S$ ：终态集（可空）
LEX
LEX用来描述和自动产生所需的各种词法分析器，包括正规式定义和识别规则两部分，将LEX程序编译后所得结果程序记为L，其作用同有限自动机一样，可用来识别和产生单词符号。
确定化和最小化

(a)确定化

I	I_a	I_b
{0}	{0,1}	{1}
{0,1}	{0,1}	{1}
{1}	{0}	$\varPhi$
$\varPhi$	$\varPhi$	$\varPhi$

如({0},a)={0,1}表示{0}只经过弧a可以到达{0,1}，以此类推。
给状态编号

s	a	b
0	1	2
1	1	2
2	0	3
3	3	3

在这里插入图片描述

最小化
终态{0,1}，非终态{2,3}

I	I_a	I_b
{0,1}	{1}	{2}
{2,3}	{0,3}	{3}

{0,1}包含了{1}和{2}，所以不能再划分；
{0,3}不包含在{0,1}或{2,3}中，拆分由状态2经弧a到达状态0和由状态3经弧a到达状态3，即{2,3} $\implies$ {2}，{3}；
得{{0,1},{2},{3}}

在这里插入图片描述

(b)已经确定化，进行最小化
终态{0,1}，非终态{2,3,4,5}

I	I_a	I_b
{0,1}	{1}	{2,4}
{2,3,4,5}	{0,1,3,5}	{2,3,4,5}
{2,4}	{0,1}	{3,5}
{3,5}	{3,5}	{2,4}

~~{0,1,3,5}已经大于{0,1}了，故不继续分析~~
{1}和{2,4}包含于{0,1}、{2,3,4,5}，故{0,1}不拆分；
{0,1,3,5}没有包含于{0,1}、{2,3,4,5}；又状态24经弧a到达状态10，包含于{0,1}，应拆24为一组（其他拆法可自验证），即拆分{2,3,4,5}为{2,4}、{3,5}

{{0,1},{2,4},{3,5}}

I	I_a	I_b
{0,1}	{1}	{2,4}
{2,4}	{0,1}	{3,5}
{3,5}	{3,5}	{2,4}

继续验证不可再拆，且都属于集合{{0,1},{2,4},{3,5}}。
在这里插入图片描述

语法分析

自上向下分析

消除左递归
含有左递归的文法将使自上而下的分析过程写入无限循环，如 $P\overset{+}{\implies}P\alpha$ ， $P\implies P\alpha\implies P\alpha\alpha\implies P\alpha\alpha\alpha\implies……$

消除左递归可以在原产生式中增加一个非终结符，如 $P\rarr P\alpha|\beta$ 改写为（注意 $\beta$ 不以 $P$ 开头）：
$P\rarr\beta P'$
$P'\rarr\alpha P'|\varepsilon$
消除回溯
确保对输入符号准确的指派一个候选去执行任务且此候选的工作结果是确信无疑的，避免回溯推倒重来费时费力。
First集和Follow集

令G是一个不含左递归的文法，对G的所有非终结符的每个候选 $\alpha$ 定义它的终结首符集 $FIRST(\alpha)$ 为：
$FIRST(\alpha)=\{a|\alpha\overset{*}{\implies}a...,a\in V_T\}$
假定S是文法G的开始符号，对于G的任何非终结符A，定义 $F O L L O W (A)$ ：
$FOLLOW(A)=\{a|S\overset{*}{\implies}...Aa...,a \in V_T\}$
安利DZ大佬的讲解

LL(1)文法
①文法不含左递归

②对于文法中每一个非终结符A的各个产生式的候选首符集两两不相交
即，若 $A\rarr\alpha_1|\alpha_2|...|\alpha_n$
则 $FIRST(\alpha_i)\cap FIRST(\alpha_j)=\varPhi$

③对文法中的每个非终结符A，若它存在某个候选首符集合包含 $\varepsilon$ ，
则 $FIRST(A)\cap FOLLOW(A)=\varPhi$

文法G满足以上条件，则称G为LL(1)文法。
LL(1)基本思想
顾名思义，第一个L表示从左到右扫描输入串，第二个L表示最左推导，1表示分析时每一步只需向前查看一个符号。即根据输入串的当前输入符号来唯一确定选用哪个产生式来进行推导，从而消除左递归和回溯。
递归下降分析优缺点

优点	缺点
分析高效（线性时间）	频繁递归工作效率低
错误定位和诊断信息准确	缺乏完善语法检查和出错处理
容易实现（方便编码）

LL(1)分析过程
比如如下分析表：

	i	+
E	E→TE’
E’		E’→TE’

~~太多了不想画，举一反三~~
初始时栈内是#E，例输入串为i，则根据表格栈顶元素E遇到i时，用TE’替代E，即逆序入栈，此时栈内为#E’T，以此类推，当输入串和栈顶都是#(结束符号)时表示成功，如果遇到分析表是空白的，则报错，如果是替换 $\varepsilon$ ，则意味不入栈。

（~~插播反爬信息~~ ）博主CSDN地址：https://wzlodq.blog.csdn.net/

下面文法中，那些是LL(1)的，说明理由。

（1）
$S\rarr Abc$
$A\rarr a|\varepsilon$
$B\rarr b|\varepsilon$

	FIRST	FOLLOW
S	{a,b}	{#}
A	{a, $\varepsilon$ }	{b}
b	{b, $\varepsilon$ }	$\varPhi$

是，满足三个条件

（2）
$S\rarr Ab$
$A\rarr a|B|\varepsilon$
$B\rarr b|\varepsilon$

	FIRST	FOLLOW
S	{a,b}	{#}
A	{a,b, $\varepsilon$ }	{b}
B	{b, $\varepsilon$ }	{b}

FIRST(A) $\cap$ FOLLOW(A)={b}
FIRST(B) $\cap$ FOLLOW(B)={b}

不是，A、B不满足条件③

（3）
$S\rarr ABBA$
$A\rarr a|\varepsilon$
$B\rarr b|\varepsilon$

	FIRST	FOLLOW
S	{a,b, $\varepsilon$ }	{#}
A	{a, $\varepsilon$ }	{#,a,b}
B	{b, $\varepsilon$ }	{#,a,b}

FIRST(A) $\cap$ FOLLOW(A)={a}
FIRST(B) $\cap$ FOLLOW(B)={b}
不是，A、B不满足条件③
（4）
$S\rarr aSe|B$
$B\rarr bBe|C$
$C\rarr cCe|d$

	FIRST	FOLLOW
S	{a,b,c,d}	{#,e}
B	{b,c,d}	{#,e}
C	{c,d}	{#,e}

FIRST(aSe) $\cap$ FIRST(B)= $\varPhi$
FIRST(bBe) $\cap$ FIRST(C )= $\varPhi$
FIRST(cCe) $\cap$ FIRST(d)= $\varPhi$
是，满足三个条件
~~其实没有 $\varepsilon$ 可以不用求FOLLOW集。~~

自下向上分析

短语、直接短语、句柄
令 $G$ 是一个文法， $S$ 是文法的开始符号，假定 $\alpha\beta\delta$ 是文法 $G$ 的一个句型，如果有
$S\overset{*}{\implies}\alpha A\delta$ 且 $A\overset{+}{\implies}\beta$
则称 $\beta$ 是句型 $\alpha\beta\delta$ 相对于非终结符A的短语。特别是，如果有
$A\rarr\beta$
则称 $\beta$ 是句型 $\alpha\beta\delta$ 相对于规则 $A\rarr\beta$ 的直接短语，一个句型的最左直接短语称为该句型的句柄。
规范规约、规范推导
假定 $\alpha$ 是文法 $G$ 的一个句子，我们称序列 $\alpha_n,\alpha_{n-1}...,a_0$ 是 $\alpha$ 的一个规范规约，如果此序列满足：
① $\alpha_n=\alpha$
② $\alpha_0$ 为文法的开始符，即 $\alpha_0=S$
③对任何 $i,0<i≤n,\alpha_{i-1}$ 是从 $\alpha_i$ 经把句柄替换为相应产生式的左部符号而得到的。

规范规约是关于 $\alpha$ 的一个最右推导的逆过程，故规范规约也称最左规约。
在形式语言中，最右推导常被称为规范推导，由规范推导所得的句型称为规范句型。
前缀、活前缀
字的前缀是指该字的任意首部。例如字abc的前缀有ε、a、ab或abc。所谓活前缀是指规范句型的一个前缀，这种前缀不含句柄之后的任何符号。之所以称为活前缀，是因为在右边增添一些终结符号之后，就可以使它成为一个规范句型。
在LR分析工作过程中的任何时候，栈里的文法符号(自栈底而上)X₁X₂…X_m应该构成活前缀，把输入串的剩余部分配上之后即应成为规范句型(如果整个输入串确实构成一个句子)。因此只要输入串的已扫描部分保持可归约成一个活前缀，那就意味着所扫描过的部分没有错误。
LR分析基本思想
在规约过程中，一方面记住已移进和规约出的整个符号串，即记住“历史”；
另一方面根据所用的产生式推测未来可能遇到的输入符号，即对未来进行“展望”；
最后结合“现实”的输入符号来确定栈顶符号串是否构成相对某一产生式的句柄。
有效项目
我们说项目 $A\rarr\beta_1·\beta_2$ 对活前缀 $\alpha\beta_1$ 有效的，其条件是存在规范推导：
$S'\overset{*}{\underset{R}{\implies}}\alpha Aw\underset{R}{\implies}\alpha\beta_1\beta_2w$
LR(1)分析过程

(1)sj 把下一状态j和现行输入符号a移进栈；
(2) rj 按第j个产生式进行归约；
(3)acc 接受;
(4)空白格出错标志，报错

利用图5.5 分析表,假定输人串为 $i * i + i$ ，LR分析器的工作过程(即，三元式的变化过程)如下：

第(1)步到第(2)步：状态0，输入i，定位表格[0,i]=s5，入栈状态5和输入i，输入串出栈；
第(2)步到第(3)步：栈顶状态5，输入*，定位[5,*]=r6，用第6个产生式F→i规约，出栈5和i，入栈F，此时看GOTO，栈顶状态0，定位[0,F]，入栈状态3；
第(3)步到第(4)步：定位[3,*]=r4，用第4个产生式T→F规约，出栈3和F，入栈T，此时GOTO[0,T]=2，入栈状态2；
第(3)步到第(4)步：定位[2,*]=s7，入栈状态7和输出*，输入串出栈；
以此类推，不一一写了。

LR(0)分析过程：
考虑文法
$S\rarr AS|b$
$A\rarr SA|a$
（1）列出这个文法的所有LR(0)项目。
0 $S'\rarr·S$
1 $S'\rarr S·$
2 $S\rarr ·AS$
3 $S\rarr A·S$
4 $S\rarr AS·$
5 $S\rarr ·b$
6 $S\rarr b·$
7 $A\rarr ·SA$
8 $A\rarr S·A$
9 $A\rarr SA·$
10 $A\rarr ·a$
11 $A\rarr a·$
（2）构造这个文法的LR(0)项目集规范族及识别活前缀的DFA。

确定化

	S	A	a	b
{0,2,5,7,10}	{1,2,5,7,8,10}	{2,3,5,7,10}	{11}	{6}
{1,2,5,7,8,10}	{2,5,7,8,10}	{2,3,5,7,9,10}	{11}	{6}
{2,3,5,7,9,10}	{2,4,5,7,8,10}	{2,3,5,7,10}	{11}	{6}
{2,4,5,7,8,10}	{2,5,7,8,10}	{2,3,5,7,9,10}	{11}	{6}
{11}	$\varPhi$	$\varPhi$	$\varPhi$	$\varPhi$
{6}	$\varPhi$	$\varPhi$	$\varPhi$	$\varPhi$

在这里插入图片描述

$I_0={S'\rarr·S,S\rarr·AS,S\rarr·b.A\rarr·SA,A\rarr·a}$
$GO(I_0,a)=\{A\rarr a·\}=I_1$
$GO(I_0,b)=\{S\rarr b·\}=I_2$
$GO(I_0,S)=\{S'\rarr S·,A\rarr S·A,S\rarr ·AS,S\rarr ·b,A\rarr ·SA，A\rarr\ a·\}=I_3$
$GO(I_0,A)=\{S\rarr A·S,S\rarr ·AS,S\rarr ·b,A\rarr\ ·SA,A\rarr ·a\}=I_4$

$GO(I_3,a)=\{A\rarr a·\}=I_1$
$GO(I_3,b)=\{S\rarr b·\}=I_2$
$GO(I_3,S)=\{A\rarr S·,S\rarr ·AS,S\rarr ·b,A\rarr\ ·SA,A\rarr ·a\}=I_5$
$GO(I_3,A)=\{A\rarr SA·,S\rarr A·S,S\rarr ·AS,S\rarr\ ·b,A\rarr ·SA,A\rarr ·a\}=I_6$

$GO(I_4,a)=\{A\rarr a·\}=I_1$
$GO(I_4,b)=\{S\rarr b·\}=I_2$
$GO(I_4,S)=\{S\rarr AS·,A\rarr S·A,S\rarr ·AS,S\rarr\ ·b,A\rarr ·SA,A\rarr ·a\}=I_7$
$GO(I_4,A)=\{S\rarr A·S,S\rarr ·AS,S\rarr ·b,A\rarr\ ·SA,A\rarr ·a\}=I_4$

$GO(I_5,a)=\{A\rarr a·\}=I_1$
$GO(I_5,b)=\{S\rarr b·\}=I_2$
$GO(I_5,S)=\{A\rarr S·A,S\rarr ·AS,S\rarr ·b,A\rarr\ ·SA,A\rarr ·a\}=I_5$
$GO(I_5,A)=\{A\rarr SA·,S\rarr A·S,A\rarr S·A,S\rarr ·AS,S\rarr\ ·b,A\rarr ·SA,A\rarr ·a\}=I_6$

$GO(I_6,a)=\{A\rarr a·\}=I_1$
$GO(I_6,b)=\{S\rarr b·\}=I_2$
$GO(I_6,S)=\{S\rarr AS·,A\rarr S·A,S\rarr ·AS,S\rarr\ ·b,A\rarr ·SA,A\rarr ·a\}=I_7$
$GO(I_6,A)=\{S\rarr A·S,S\rarr ·AS,S\rarr ·b,A\rarr\ ·SA,A\rarr ·a\}=I_4$

$GO(I_7,a)=\{A\rarr a·\}=I_1$
$GO(I_7,b)=\{S\rarr b·\}=I_2$
$GO(I_7,S)=\{A\rarr S·A,S\rarr ·AS,S\rarr ·b,A\rarr\ ·SA,A\rarr ·a\}=I_5$
$GO(I_7,A)=\{A\rarr SA·,S\rarr A·S,A\rarr S·A,S\rarr ·AS,S\rarr\ ·b,A\rarr ·SA,A\rarr ·a\}=I_6$