编译系统的结构
词法分析/扫描(Scanning)
从左向右逐行扫描源程序的字符,识别出各个单词,确定 单词的类型 。将识别出的单词转换成统一的 机内表示 , 词法单元(token)形式:
token:<种别码, 属性值>
单词类型 | 种别 | 种别码 |
---|---|---|
关键字 | program, if , else… | 一词一码 |
标识符 | 变量名,数组名,记录名… | 多词一码 |
常量 | 整型,浮点型,字符型… | 一型一码 |
运算符 | 算术、关系、逻辑 | 一词\一型一码 |
界限符 | ; ( ) = { } … | 一词一码 |
语法分析( parsing)
语法分析器 (parsing) 从此法分析器输出的token序列中 识别出各类短语 ,并构造语法分析树。
position = initial + rate * 6;
<id, position> <=> <id,initial> <+> <id, rate> <*> <num,60><;>
语义分析
-
收集标识符的属性信息
-
种属 (kind)
-
类型 (type)
-
存储位置,长度
-
值
-
作用域
-
参数和返回值信息
-
-
语义检查
- 变量或过程未经声明就使用
- 变量或过程名重复声明
- 运算分量类型不匹配
- 操作符与操作数之间的类型不匹配
- 数组下标不是证书
- 对非数组变量使用数组访问操作符
- 对非过程名使用过程调用操作符
- 过程调用的参数类型或数目不匹配
- 函数返回类型不匹配
中间代码生成
- 三地址码 (Three-address Code)
- 三地址码由类似汇编语言的指令序列组成,每个指令最多有三个操作数
- 语法结构树/语法树 (Syntax Trees)
目标代码生成
- 目标代码生成以源程序的中间表示形式作为输入,并把它映射到目标语言
- 目标代码生成的一个重要人物是为程序中使用的变量 合理分配寄存器
代码优化
- 为改进代码所进行的 等价程序变换 ,使其 运行得更快 , 占用空间更少 。
语言和文法
字母表(Alphabet)
- 字母表 Σ \Sigma Σ 是一个有穷符号集合
- 字母表的 乘积 : Σ 1 Σ 2 = { a b ∣ a ∈ Σ 1 , b ∈ Σ 2 } \Sigma_1 \Sigma_2 = \{ab|a\in\Sigma_1,b\in \Sigma_2\} Σ1Σ2={ab∣a∈Σ1,b∈Σ2}
- 字母表的 n次幂 : Σ n = Σ n − 1 Σ \Sigma^n = \Sigma^{n-1}\Sigma Σn=Σn−1Σ
- 字母表的 正闭包 : Σ + = Σ 1 U Σ 2 U Σ 3 . . . \Sigma^+ = \Sigma^1U\Sigma^2U\Sigma^3... Σ+=Σ1UΣ2UΣ3...
- 字母表的 克林闭包 : Σ ∗ = Σ 0 U Σ + \Sigma^* = \Sigma^0 U \Sigma^+ Σ∗=Σ0UΣ+
串(String)
- 串是字母表中 符号的 一个 有穷序列
- 串s的 长度 通常记作 |s| ,指其中符号的个数
- 空串 是长度为0的串,用 ϵ \epsilon ϵ 表示
- 串的连接 : x = dog , y= house , xy = doghouse
- 串的幂运算 :若s = ba, 有 s 1 = b a , s 2 = b a b a , s 3 = b a b a b a . . . s^1=ba, s^2=baba, s^3=bababa... s1=ba,s2=baba,s3=bababa...
文法
G = ( V T , V N , P , S ) G=(V_T,V_N,P,S) G=(VT,VN,P,S)
-
V T : V_T: VT: 终结符集合 , 终结符(terminal symbol) 是文法所定义的语言的 基本符号 ,有时也称为token
-
V N : V_N: VN: 非终结符集合 ,非终结符(nonterminal) 是用来表示语法成分的符号,也称语法变量
-
P : P: P: 产生式集合,产生式(production) 描述了将终结符和非终结符组合成串的方法
- 一般形式: α \alpha α-> β \beta β
- 产生式的简写:对一组有相同 左部 的产生式可以简记为: α \alpha α -> β 1 ∣ β 2 ∣ β 3 . . . \beta_1 | \beta_2 | \beta_3... β1∣β2∣β3... ,右部可称为 α \alpha α 的候选式
-
S : S: S: 开始符号
-
推导(Derivations)和归约(Reductions)
- 推导: 用产生式的左部替换产生式的左部
- 归约: 推导的逆运算
-
文法分类:
- 0型文法: 无限制文法,左部至少包含一个非终结符
- 1型文法: 上下文有关文法,左部符号的个数不准多于右部符号。不包含空产生式
- 2型文法: 上下文无关文法,左部不能出现终结符
- 3型文法: 正则文法(RG)
- 右线性文法: A A A-> w B w B wB 或 A A A-> w w w
- 左线性文法: A A A-> B w B w Bw 或 A A A-> w w w