新近实习的岗位是倒腾编译器的,主要研究c/c++的clang编译器的一些特性。Python转c/c++,也是第一次开始接触编译器这么高大上的底层玩意儿,特此记录。
编译器简述
python/java这类解释型语言,只需要在运行平台上安装对应的虚拟机、解释器就可以将源码按照规范转成对应平台的机器码生成可执行程序。而c/c++这种编译型语言则需要将源码在特定的平台上生成适用的机器码并生成可执行文件,在不同机器平台上实现源码到机器码生成可执行文件的工具就叫编译器。整个编译过程:
预处理:处理诸如宏定义、include分析等,不进行语法检查
编译:翻译源码,进行语法检查,生成汇编文件
汇编:处理汇编文件,生成目标代码
连接:调用linker连接器,对源码中调用的库文件进行连接,生成可执行文件
编译器主要的构成分为三部分:
前端 -- AST -- 后端
前端用于源码解析,最终生成表示源码逻辑的抽象语法树(Abstract Syntax Tree,AST),后端主要将抽象表示的中间代码转为最后适用平台的机器码。
LLVM
LLVM本身并不是编译器,而是一种编译器的基础架构,在编译器构成部分中,作为一个基础后端,进行机器码的生成处理。而之所以LLVM属于一种通用编译,是因为他更强调不同平台中间码IR的强一致性,由后端LLVM进行对统一格式IR到不同平台机器码的适配,简言之,LLVM的编译器架构,更像是底层化的解释器——不同于java、python解释器、虚拟机从源码到最终机器码的全部解释,LLVM架构采用前端正常编译,后端进行特殊解释的方式。
其中被视为编译器的clang起着前端标准编译生成中间码的作用。因此,准确说,clang并不是编译器,clang是LLVM编译架构的编译前端而已,仅仅是LLVM众多项目中的一个。而整个的编译过程最终都要LLVM的编译基础架构将生成的中间码转成机器码。
安装LLVM套件
安装LLVM编译环境,LLVM作为基于寄存器的虚拟机解释的编译架构,是需要安装的。官方推荐将依赖LLVM编译架构的项目源码放到LLVM的源码包中,由LLVM编译安装一起编译部署。比如,clang就是将源码包放到tools目录下更名为clang