编译原理学习笔记

最新推荐文章于 2024-06-01 11:07:42 发布

LutingWang

最新推荐文章于 2024-06-01 11:07:42 发布

阅读量560

点赞数

本文链接：https://blog.csdn.net/LutingWang/article/details/100585660

版权

概述

编译程序把源程序翻译为目标程序。根据源程序的语言种类，翻译程序可以分为汇编程序与编译程序。与之相对，解释程序是对源程序进行解释执行的程序。相应的可以将高级语言分为

编译型 C/C++, Swift, etc.
解释型 Python, javascript, etc.
混合型 Java, etc.

本文重点放在编译程序的设计上。典型的编译程序具有 $7$ 个逻辑部分

对源程序扫描一次被称为一遍 (pass)。典型的一遍扫描编译程序有如下形式

通常将中间代码生成前的分析部分称为编译器的前端，其后的综合部分则被称为后端。这样就把一个编译程序分为了与源语言相关和与目标机有关的两个独立的部分，降低了程序的耦合。假设 llvm 编译器支持 $M$ 种源语言到 $N$ 种目标语言的编译

传统的编译器如 gcc 可能需要开发 $\times N$ 个不同的子模块。而 llvm 使用统一的中间语言 llvm Intermediate Representation 只需要 $M$ 个前端与 $N$ 个后端，大大降低了开发成本。

文法

设非空有穷集合 $\Sigma$ 为一字母表，则其上的符号串为 $\forall s \in \Sigma^*$ ，其中 $*$ 表示集合的闭包。特别的记 $\Sigma^0 = {\varepsilon}$ 为空串组成的集合。规则通常写作

$x\text{ or }U\rightarrow x,\quad |U| = 1, |x| \ge 0$

其中左部 $U$ 是符号，右部 $x$ 是有穷符号串。规则的集合 $P$ 即可确定一个文法 $G$

<程序>				::= <常量说明><变量说明><函数说明>
	<常量说明>		::= {const<常量定义>;}
		<常量定义> 	::= int<标识符>=<整数>{,<标识符>=<整数>}|char<标识符>=<字符>{,<标识符>=<字符>}
	<变量说明>		::= {<类型标识符><变量定义>;}
		<变量定义> 	::= <标识符>[<下标>]{,<标识符>[<下标>]}
			<下标>	::= '['<无符号整数>']' // <无符号整数>表示数组元素的个数，其值需大于0
	<函数说明>		::= {(<类型标识符>|void)<函数定义>}void<主函数>
		<函数定义>	::= <标识符>'('<参数表>')'<复合语句>
			<参数表>	::= [<类型标识符><标识符>{,<类型标识符><标识符>}]
		<主函数>		::= main'('')'<复合语句>

<复合语句>			::= '{'<常量说明><变量说明>{<语句>}'}'
<语句>				::= <条件语句>|'{'{<语句>}'}'|<函数调用语句>;|<赋值语句>;|<读语句>;|<写语句>;|<返回语句>;|;
	<条件语句>	::= <if语句>|<while语句>|<do语句>|<for语句>
		<if语句>		::= if'('<条件>')'<语句>[else<语句>]
		<while语句>	::= while'('<条件>')'<语句>
		<do语句>		::= do<语句>while'('<条件>')'
		<for语句>	::= for'('<标识符>=<表达式>;<条件>;<标识符>=<标识符><加法运算符><无符号整数>')'<语句>
			<条件>	::= <表达式>[<关系运算符><表达式>] // 表达式为0条件为假，否则为真
	<函数调用语句>	::= <标识符>'('[<表达式>{,<表达式>}]')'
	<赋值语句>		::= <标识符>['['<表达式>']']=<表达式>
	<读语句>			::= scanf'('<标识符>{,<标识符>}')'
	<写语句>			::= printf'('<字符串>[,<表达式>]')'|printf'('<表达式>')' 
	<返回语句>		::= return['('<表达式>')']

<表达式>				::= [<加法运算符>]<项>{<加法运算符><项>} // [+|-]只作用于第一个<项>
<项>				::= <因子>{<乘法运算符><因子>}
<因子>				::= <标识符>['['<表达式>']']|'('<表达式>')'|<整数>|<字符>|<函数调用语句>
<整数>				::= [<加法运算符>]<无符号整数>

<标识符>		::= <字母>{<字母>|<数字>}
<无符号整数> 	::= <非零数字>{<数字>}|0
	<数字>		::= 0|<非零数字>
	<非零数字>	::= 1|...|９
<字符>		::= '<加法运算符>'|'<乘法运算符>'|'<字母>'|'<数字>'
<字符串>		::= "{十进制编码为32,33,35-126的ASCII字符}"
<类型标识符> 	::= int|char
<加法运算符>	::= +|-
<乘法运算符> 	::= *|/
<关系运算符> 	::= <|<=|>|>=|!=|==
<字母>		::= _|a|...|z|A|...|Z

上述文法使用扩充的 BNF 表示法进行描述

符号	定义	说明
$\vert$	或	作用域由括号限定
$\{t\}^m_n$	将 $t$ 重复连接 $\sim m$ 次	缺省时 $\infin,\ n = 0$
$[t]$	符号串 $t$ 可有可无	等价于 ${t\}^1$
$(t)$	局部作用域	主要用于限定 $\vert$ 范围

概念	符号	定义	示例
识别符号	$Z$	文法中第一条规则的左部符号	<程序>
字汇表	$V$	文法中出现的全部符号	{ <程序>, <常量说明>, …, 0, 1, … }
非终结符号集	$V_n$	全部规则的左部组成的集合	{ <程序>, <常量说明>, <变量说明>, … }
终结符号集	$V_t$	$V - V_n$	{ 0, 1, …, _, a, b, … }

二义性

文法 $G$ 是二义性的，如果 $\exist x \in L(G)$ 使下列条件之一成立

$x$ 可以对应两颗不同的语法树
$x$ 有两个不同的规范推导

词法（线性）分析

扫描源程序字符，按词法规则识别单词，同时进行词法检查

单词是语言的基本语法单位

种类	属性类型	属性值
IDENFR	string	标志符名称
INTCON	int	无符号整数值
CHARCON	char	字符常量
STRCON	string	字符串常量
RESERVED	Reserved	CONSTTK, INTTK, CHARTK, VOIDTK, MAINTK, IFTK, ELSETK, DOTK, WHILETK, FORTK, SCANFTK, PRINTFTK, RETURNTK
DELIM	Delim	ASSIGN, SEMICN, COMMA, LPARENT, RPARENT, LBRACK, RBRACK, LBRACE, RBRACE
OPER	Oper	PLUS, MINU, MULT, DIV
COMP	Comp	LSS, LEQ, GRE, GEQ, EQL, NEQ

语法（层次）分析

根据文法分析并识别出各种语法成分，并进行正确性检查

语义分析

对语法树进行语义分析，产生相应的中间代码

中间代码是一种介于源语言和目标语言之间的语言形式，常用的有四元式、逆波兰表示等。

代码优化

生成高质量的目标程序

生成目标程序

由中间代码生成目标程序

符号表管理

把源程序中的信息和编译过程中所产生的信息登记在表格中，便于在随后的编译过程中进行查找

错误处理

诊断出源代码的错误，并报告用户错误的性质和位置

参考

深入浅出让你理解什么是LLVM

LutingWang

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
编译原理学习笔记

源程序用汇编语言或高级语言编写的程序目标程序用目标语言表示的程序翻译程序读取源程序并输出相应目标程序的程序根据源程序的语言种类，翻译程序可以分为汇编程序与编译程序。与之相对，解释程序是对源程序进行解释执行的程序。相应的可以将高级语言分为编译型 C/C++, Swift, etc.解释型 Python, javascript, etc.混合型 Java, etc.本文重点...
复制链接

扫一扫