编译原理笔记(1)绪论

1.什么是编译

相关的预备知识
计算机程序设计语言分为三个层次,分别是高级语言、汇编语言和机器语言。
机器语言是可以直接被计算机理解的语言,由机器语言编写的程序都是由0和1的组合构成的序列。机器语言与人类表达习惯相去甚远,且对于程序员来说机器语言难以记忆。
汇编语言中引入了助记符,使得语言表示更加直观,方便程序员理解。虽然相较于机器语言取得了一定的进步,但是汇编语言依赖于特定的机器,非计算机专业的人员使用汇编语言受到了严重限制。同时,汇编语言的编写效率仍然很低。
高级语言采用一种类似于数学定义或自然语言的简洁形式来编写程序。高级语言更加接近于人类的表达习惯,且不依赖于特定的机器,同时具有较高的编写效率。
高级语言和汇编语言源程序最终都必须要翻译成机器语言源程序才能在计算机上执行。由此引入了编译和汇编的概念。

编译的定义:将高级语言翻译成汇编语言或机器语言的过程。前者称为源语言,后者称为目标语言。编译的本质就是对语言的翻译。

高级语言源程序的处理过程

在这里插入图片描述

预处理器的功能

  • 把存储在不同文件中的源程序聚合在一起。
  • 把被称为宏的缩写语句转换为原始语句。

可重定位的定义:在内存中存放的起始地址不是固定的,代码中的绝对地址是由起始位置和相对地址相加获得的。

加载器的作用

  • 修改可重定位地址;
  • 将修改后的指令和数据放到内存中的合适位置处。

链接的定义:将可重定位的目标文件与其他可重定位的目标程序以及库文件连接。

链接器的作用

  • 将多个可重定位的机器代码文件和库文件连接到一起。
  • 解决外部内存地址问题。

2.编译系统的结构

编译的各个阶段

在这里插入图片描述

  • 分析部分:也被称为编译器前端,是从词法分析器到中间代码生成器的部分。该部分只与源语言相关。
  • 综合部分:也被称为编译器后端,包括目标代码生成器和机器相关代码优化器。该部分只与目标语言相关。

备注:在实际实现中,编译的各个阶段可能会整合在一起。如语义分析器常常和中间代码生成器放在一起。

语义制导翻译的概念:在分析语法规则时结合语义规则进行语义分析。这样,语法分析、语义分析和中间代码生成可以放在一起实现。

3.词法分析概述

词法分析的主要任务

  • 从左到右逐行扫描源程序的字符,识别出各个单词,确定单词的类型。
  • 将识别出的单词转换为统一的机内表示——词法单元(token)形式。

词法单元token介绍

  • 构成方式:是一个二元组,表示为<种别码,属性值>
  • 区分方法:首先通过种别码区分不同的词语,如果种别码相同则通过属性值区分。如果种别码为一词一码,则该词语的词法单元就无需属性值。

单词类型的分类

在这里插入图片描述

  • 关键字:所有不同的关键字都对应唯一一个种别码。
  • 标识符:所有不同的标识符共享同一个种别码。
  • 常量:不同类型的常量对应的种别码不同;相同类型的常量使用同一个种别码。
  • 运算符和界限符:不同的运算符和界限符都对应唯一一个种别码(有时一类运算符共享同一个种别码)。

4.语法分析概述

语法分析的主要任务:从词法分析器输出的token序列中识别出各类短语,并构造语法分析树。语法分析树描述了句子的语法结构。

程序结构的递归表示:程序的可递归表示的性质是语法分析树的构造基础。

  • 任何标识符都是表达式;
  • 任何常数都是表达式;
  • 对任意表示式1和表达式2,这两个表达式之间的运算结果也是表达式。

5.语义分析概述

语义分析包括对声明语句的分析和语义检查两个方面。

声明语句的分析:程序中的语句可以分为声明语句和可执行语句两种,语义分析需要对声明语句进行分析,来收集标识符的属性信息。

  • 种属:表示一个标识符是简单变量,还是数组、记录等复杂变量,又或者是一个过程。
  • 类型:标识符所表示的数据类型。
  • 存储位置和长度
  • 值和作用域
  • 参数和返回值信息

符号表概述

  • 符号表作用:用于存放标识符的属性信息的数据结构。
  • 字符串表:符号表中常带有一个字符串表,用于存放程序中用到的标识符和字符常数。

语言检查:审查源程序有无语义错误,常见的语义错误如下:

  • 变量或过程未声明就使用;
  • 变量或过程名重复声明;
  • 运算分量类型不匹配。
  • 操作符与操作数之间的类型不匹配。

6.中间代码生成和后端概述

中间代码的作用:中间代码是一种结构简单、含义明确的记号系统,可以设计为多种不同的样式,但是都必须满足容易生成和容易翻译成目标代码两个原则。

常见的中间表示形式:三地址码、语法结构树(也被称为语法树)。

备注:语法树和之前介绍的语法分析树不是同一个概念。

三地址码概述

  • 结构组成:由类似于汇编语言的指令序列组成;
  • 操作数个数限制:每个指令最多有三个操作数。
  • 常见的三地址指令
    在这里插入图片描述

四元式概述

  • 四元式的作用:四元式用于表示一条三地址指令。
  • 四元式的内容:元组中的第一个元素为操作符,后面三个分量为指令的操作数(但是不一定有三个操作数,因此可以空着)。

目标代码生成

  • 生成过程:目标代码以源程序的中间表示形式作为输入,并把它映射到目标语言。
  • 重要任务:为程序中使用的变量合理分配寄存器。

代码优化

  • 代码优化的作用:代码优化是为了改进代码所进行的等价程序变换,使得其运行得更快一些或占用的空间更少一些,又或者两者兼顾。
  • 代码优化方式分类:机器无关优化和机器相关优化。前者是在中间代码层面进行优化,后者在目标代码层面进行优化。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
词法分析 一、实验目的: 通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。 编制一个读单词过程,从输入的源程序中,识别出各个具有独立意义的单词,即基本保留字、标识符、常数、运算符、分隔符五大类。并依次输出各个单词的内部编码及单词符号自身值。(遇到错误时可显示“Error”,然后跳过错误部分继续显示) 二、实验说明 1、 词法分析器的功能和输出格式 词法分析器的功能是输入源程序,输出单词符号。词法分析器的单词符号常常表示成以下的二元式(单词种别码,单词符号的属性值)。本实验中,采用的是一类符号一种别码的方式。 2、 单词的BNF表示 -> ->|| |ε -> -> |ε -> + -> - -> > -> >= 三、实验要求 (一)准备: 1.阅读课本有关章节,明确语言的语法,写出基本保留字、标识符、常数、运算符、分隔符和程序例。 2.初步编制好程序。 3.准备好多组测试数据。 (二)上课上机: 将源代码拷贝到机上调试,发现错误,再修改完善。 第二次上机调试通过。 (三)程序要求: 程序输入/输出示例: 如源程序为C语言。输入如下一段: main() { int a,b; a = 10; b = a + 20; } 要求输出如下: (2,”main”) (5,”(“) (5,”)“) (5,”{“) (1,”int”) (2,”a”) (5,”,”) (2,”b”) (5,”;”) (2,”a”) (4,”=”) (3,”10”) (5,”;”) (2,”b”) (4,”=”) (2,”a”) (4,”+”) (3,”20”) (5,”;”) (5,”}“) 要求: 识别保留字:if、int、for、while、do、return、break、continue; 单词种别码为1。 其他的都识别为标识符;单词种别码为2。 常数为无符号整形数;单词种别码为3。 运算符包括:+、-、*、/、=、>、=、<=、!= ; 单词种别码为4。 分隔符包括:,、;、{、}、(、); 单词种别码为5。 以上为参考,具体可自行增删。 (四)程序思路 这里以开始定义的C语言子集的源程序作为词法分析程序的输入数据。在词法分析中,自文件头开始扫描源程序字符,一旦发现符合“单词”定义的源程序字符串时,将它翻译成固定长度的单词内部表示,并查填适当的信息表。经过词法分析后,源程序字符串(源程序的外部表示)被翻译成具有等长信息的单词串(源程序的内部表示),并产生两个表格:常数表和标识符表,它们分别包含了源程序中的所有常数和所有标识符。 0.定义部分:定义常量、变量、数据结构。 1.初始化:从文件将源程序全部输入到字符缓冲区中。 2.取单词前:去掉多余空白。 3.取单词后:去掉多余空白(可选,看着办)。 4.取单词:利用实验一的成果读出单词的每一个字符,组成单词,分析类型。(关键是如何判断取单词结束?取到的单词是什么类型的单词?)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值