编译原理王者之路

最新推荐文章于 2024-04-19 23:02:02 发布

爱coding的小羊

最新推荐文章于 2024-04-19 23:02:02 发布

阅读量1.9k

点赞数

分类专栏：编译原理文章标签： python 人工智能算法

本文链接：https://blog.csdn.net/qq_46368746/article/details/125491455

版权

编译原理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

编译原理王者之路

王者导航

编译原理王者之路
前言
一、学习路线
- 1、课本路线
- 2、技术路线
二、基础知识
三、程序语言的语法描述
四、词法分析
五、语法分析
六、语义分析和中间代码产生
七、优化
八、目标代码生成

前言

近期，学期末，编译原理期末考试，借此机会，对编译原理这门课程与技术进行整理汇总，形成体系大纲。编译原理偏向于计算机应用程序的底层，也是计算机程序员应该了解的相关原理。其次，像现在的机器学习等进行自然语言处理时，也会运用相关准则与方法。

本博文主要是参考《程序设计语言编译原理（第3版）》（陈火旺等人著）

一、学习路线

1、课本路线

请添加图片描述

2、技术路线

在这里插入图片描述
编译程序的工作过程一般可以划分为五个阶段：词法分析、语法分析、语义分析与中间代码产生、优化、目标代码生成。主要是对字符串进行分析处理.
本博文也将按照这五个阶段依次介绍每个阶段的任务、方法及其实现。

二、基础知识

1、基础概念

1.1 编译程序（翻译程序）

能够把某一种语言程序（称为源语言程序，如C、Java之类的高级语言）转换成另一种语言程序（称为目标语言程序，如汇编语言或者机器语言之类的低级语言）的程序，后者和前者在逻辑上是等价的。

1.2 交叉编译程序

1.2.1 宿主机

运行编译程序的计算机

1.2.2 目标机

运行编译程序所产生的目标程序的计算机

如果一个编译程序产生不同于其宿主机的机器代码，称其为交叉编译程序。

1.3 编译前端

主要是对编译程序的划分。前端主要由与源语言有关但与目标机无关的部分组成。如此法分析、语法分析、语义分析与中间代码产生，有的代码优化工作也可以包括在前端。

1.4 编译后端

主要是对编译程序的划分。后端包括编译程序中与目标机有关的那部分，通常不依赖于源语言而仅仅依赖于中间语言。如与目标机有关的代码优化和目标代码生成等。

1.5 程序设计环境

编辑程序、编译程序、连接程序、调试工具等工具的集成

1.6 程序语言

程序语言主要由语法和语义两方面定义，有描述数据和对数据的运算这两大功能。

1.6.1 语法

可以形成或者产生一个合式的程序的一组规则。
任何语言程序都可以看成是一定字符集（称为字母表）上的一字符串（有限序列）。

1.6.1.1 词法规则和语法规则

这组规则包含词法规则和语法规则（或产生规则）。
（字母组成单词，单词组成词语，词语组成句子）

1.6.2 语义

可以定义一个程序的意义的一组规则。

三、程序语言的语法描述

1、基础概念

1.1 符号串

由∑（字母表）中的符号所构成的一个有穷序列。

1.2 空字

不包含任何符号的序列

1.3 文法

文法是描述语言的语法结构的形式规则（即语法规则）

1.4 上下文无关文法（重点）

所定义的语法范畴（或语法单位）是完全独立于这种范畴可能出现的环境的一种文法。
一个上下无关文法包括四个部分，故上下文无关文法是一个四元式。

一组终结符号
终结符号是组成语言的基本符号，在程序语言中为单词符号，如基本字、标识符等。
一组非终结符号
非终结符号代表语法范畴，是一个类或者集合的记号，每个非终结符代表一定符号串的集合（由终结符号和非终结符号组成的符号串）
一个开始符号
一个特殊的非终结符号，通常称为句子（最大的）
一组产生式
产生式是定义语法范畴的一种书写规则，左边是非终结符（大的），中间是→，读作产生，右边是终结符号或者与非终结符号组成的符号串（小的）。

简单理解就是对其进行就事论事处理，不必考虑上下文。根据上下文无关文法的组成，简单理解为把一个句子揉碎，分为4个部分。
其中心思想是从开始符号出发，反复连续使用产生式，对非终结符实行替换与展开，产生仅由终结符号组成的表达式。

2、上下文无关文法

2.1 定义

在这里插入图片描述
上下文无关文法属于2型文法。文法分为四种：0型、1型、2型、3型。0型强于1型，以此类推。

2.2 推导过程

在这里插入图片描述

2.2.1 最左推导

每次总是选择最左侧的符号进行替换

2.2.2 最右推导

每次总是选择最右侧的符号进行替换

2.3 语法分析树

2.3.1 定义

用一棵树表示一个句型的推导

2.3.2 二义性

如果一个文法存在一个句子对应两棵不同的语法树，则称这个文法是二义的。
主要是针对文法而言的。

四、词法分析

1、任务

从左至右逐个字符地对源程序进行扫描，产生一个个的单词符号，把作为字符串的源程序改造成为单词符号串的中间程序。
简单来说，就是把一整个字符串划分为一个个单词符号。

2、过程

2.1 词法分析器的输入输出

2.1.1 输入

源程序

2.1.2 输出

单词符号，有五种

关键字
程序语言定义的具有固定意义的标识符
标识符
表示各种名字
常数
运算符
界符

程序的关键字、运算符、界符是确定的。

2.2 输入、预处理

第一步是输入源程序文本，输入串一般放在一个缓冲区内，此外，大多数情况下还要对输入串进行预处理，比如剔除注解、空白符、回车符、换行符等。

2.3 单词符号的识别-超前搜索

词法分析器调用预处理子程序处理一串输入字符串
放入扫描缓冲区
从此缓冲区逐一识别单词符号
处理完后调用预处理子程序装入新串

超前搜索：超前扫描许多个字符，超前到能够肯定磁性的地方为止。

2.4 状态转换图

一种设计词法分析器的好工具。转换图是一张有限方向图。
组成

结点
代表状态，用圆圈表示
终态、初态
一张状态转换图有初态（单圈表示）和至少一个终态（双圈表示）
连结
状态之间用箭弧进行连接
标记
在箭弧上，表示箭弧始结点状态下可能出现的输入字符或字符类

2.5 正规表达式和有限自动机

2.5.1 正规表达式

2.5.1.1 正规集定义

程序设计语言的单词表、词汇集构成的集合，即是字的集合。它有一定特殊性，我们称之为正规集。用来代表程序语言的单词表。

2.5.1.2 正规式定义

可以说是正规集的名称。

正规集可以用正规表达式（简称正规式）表示
正规表达式是表示正规集一种方法
一个字集合是正规集当且仅当它能用正规式表示

2.5.1.3 正规式和正规集递归定义

$\color{Red} \varepsilon$ 和 $\color{Red} \varnothing$ 都是 $\Sigma$ 上的正规式，它们所表示的正规集为 $\color{Blue} \{\varepsilon\}$ 和 $\color{Blue} \varnothing$
任何 $\color{Green} \alpha$ $\epsilon$ $\Sigma$ ，则 $\color{Red} \alpha$ 是 $\Sigma$ 上的正规式，它所表示的正规集为 $\color{Blue} \{\alpha \}$
假定 $e_1$ 和 $e_2$ 都是 $\Sigma$ 上的正规式，它们所表示的正规集为L( $e_1$ )和L( $e_2$ )，则：
1）( $e_1$ | $e_2$ )为正规式，它所表示的正规集为L( $e_1$ ) $\cup$ L( $e_2$ )

2）( $e_1$ $\cdot$ $e_2$ )为正规式（做连接），它所表示的正规集为L( $e_1$ )L( $e_2$ )（连接）

3）( $e_1$ ) $^*$ 为正规式，它所表示的正规集为(L( $e_1$ )) $^*$ （闭包）

2.5.2 有限自动机

2.5.2.1 确定有限自动机

一个确定有限自动机（DFA）M是一个五元式
M=(S, $\Sigma$ , f, $S_0$ , F),其中:
1.S:有穷状态集，即包含起点重点在内的，各个状态
2. $\Sigma$ :输入字母表(有穷)，即状态改变的条件
3.f:状态转换函数，为 S $\times$ $\Sigma$ $\rightarrow$ S 的单值部分映射，即由A状态到B状态的改变
f(s,a) = s’ 表示：当现行状态为s ，输入字符为a时，将状态转换到下一状态s’，s’称为s的一个后继状态
4. $S_0$ $\in$ S:是唯一的一个初态，即起点唯一
5.F $\subseteq$ S ：终态集(可空)，即最终状态，不唯一。

对于Σ * 中的任何字 $\alpha$ ，若存在一条从初态到某一终态的道路，且这条路上所有弧上的标记符依序连接成的字等于 $\alpha$ ，则称 $\alpha$ 为DFA M 所识别(接收)

2.5.2.2 非确定有限自动机

NFA
定义略
DFA是NFA的一个特例
对于Σ * 中的任何字 $\alpha$ ，若存在一条从某一初态到某一终态的道路，且这条路上所有弧上的标记符依序连接成的字等于 $\alpha$ ，则称 $\alpha$ 为NFA M 所识别(接收)

2.5.2.3 子集法

将NFA确定化为DFA的方法

五、语法分析

1、任务

在词法分析识别出单词符号串的基础上，分析并判定程序的语法结构是否符合语法规则。
即按文法的产生式，识别输入符号串是否为一个句子。
从概念上讲，建立一棵与输入串相匹配的语法分析树。
根据语法分析树的建立方法，分为两类，一类是自上而下分析方法，另一类是自下而上分析方法。

2、自上而下分析方法

2.1 主旨

对于任何输入串，试图用一切可能的办法，从文法开始符号（根结）出发，自上而下为输入串建立一棵语法树。
这种方法是带回溯的，如果其中一个不符合，要回头看是否有别的候选。

2.2 缺点应对方法

2.2.1 消除文法的左递归

含左递归的文法会使自上而下的分析过程陷入无限循环

2.2.2 消除回溯，提取左因子

若关于 A 的语法规则符合如下形式：A → δβ1 | δβ2 | … | δβn | δ | γ1 | γ2 | … | γm
则提取左公因子
A → δA/ | γ1 | γ2 | … | γm
A/ → β1 | β2 | … | βn | ε |
继续检查 A 与 A/ 的候选式是否可以继续提取

反复提取左公共因子（包括新引入的非终结符），就可以使得所有候选首符集两两不相交

2.2.3 LL(1)分析条件

文法不含左递归
文法中每一个非终结符 A 的各个产生式的候选首符集不相交，即若 A → α1 | α2 | … | αn
FIRST(αi)∩FIRST(αj) = ∅，i ≠ j
对于文法中的每个非终结符 A，若它的某个候选首符集包含 ε，则 FIRST(αi)∩FOLLOW(A) = ∅