【智能制造-6】编译器

W Y

于 2024-07-03 10:44:13 发布

阅读量703

点赞数 30

文章标签：编译器 Make和Cmake 语法分析

本文链接：https://blog.csdn.net/qq_45611002/article/details/140144717

版权

做过编译器开发的人的优势是什么？

扎实的编程基础
编译器开发需要深入掌握计算机基础理论,如数据结构、算法分析、操作系统等
这些基础知识在其他软件开发中同样适用,能提高整体编程能力
语言处理能力
编译器开发人员熟悉词法分析、语法分析、语义分析等语言处理技术
能够更好地理解和处理各种领域特定语言的语法结构和语义
中间表示设计
编译器需要定义并处理中间表示语言,具有相关的设计经验
这有助于为机器人控制语言设计出高效的中间表示,方便后续代码生成
性能优化思维
编译器开发需要对生成的代码进行各种优化,培养了性能优化的思维模式
这种思维方式能帮助机器人语言转换系统产生更高效的目标代码
错误处理能力
编译器需要处理各种语法、语义错误,具有丰富的错误处理经验
能够为机器人语言转换系统设计出健壮的错误处理机制
工程化经验
编译器开发通常需要将各个模块集成为完整的系统
这种工程化实践有助于设计出可靠、可维护的机器人语言转换系统架构

总之,具有编译器开发背景的人员在设计机器人语言转换系统时,能够发挥自身的语言处理、性能优化、错误处理等方面的优势,构建出更加健壮、高效的系统。这种优势是其他开发人员难以企及的。

IR的作用是什么？

IR（Intermediate Representation）中间表达是编译器中非常重要的数据结构。编译器在完成前端工作后，会生成其自定义的IR，并在此基础上进行各种优化算法，最终生成目标代码。
在编译器开发中,使用中间表示语言(Intermediate Representation, IR)来实现从高级语言到底层指令集的转换是非常关键的设计。主要有以下几个原因:

解耦前端和后端:
高级语言和底层指令集之间存在较大差异,直接转换会很复杂。
引入IR可以将编译器划分为前端(处理高级语言)和后端(生成底层代码)两部分,彼此相对独立。
这样可以更方便地支持多种高级语言和多种目标体系结构。
中间代码优化:
IR 通常采用更抽象的形式表示程序,有利于进行各种优化变换。
可以在IR层面应用死代码消除、循环展开、函数内联等优化技术,提高最终代码质量。
这些优化操作对高级语言和底层指令集来说都是透明的。
辅助分析和调试:
IR 作为编译器内部的中间表示,可以用于各种分析和诊断。
开发者可以方便地检查和修改IR,有助于定位和修复编译器bugs。
调试器也可以利用IR信息来展现程序的运行状态。
跨平台移植性:
IR 屏蔽了具体的高级语言和目标体系结构细节。
只需要针对不同平台实现相应的前端和后端即可,IR部分可以复用。
这大大提高了编译器在不同硬件平台上的可移植性。

总之,IR是编译器设计的关键组成部分,它使得编译过程更加模块化、优化友好,并增强了编译器的可扩展性。这也是编译器开发者必须掌握的重要技术。

编译器的前端和后端？

在编译原理中，通常将编译器分为前端和后端。其中，前端会对所输入的程序进行词法分析、语法分析、语义分析，然后生成中间表达形式IR。后端会对IR进行优化，然后生成目标代码。编译器的前端和后端的主要区别在于，前端处理源代码，而后端处理中间代码。前端也被称为语言处理器，它将文本形式的程序转换成计算机能够理解的中间代码表示形式，即IR。这个过程称为编译。在此之后，优化器会对IR进行优化，以获取更快、更小、更高效的代码。最后，后端将IR翻译成目标机器的汇编语言或机器语言。这个过程称为汇编或链接。
编译器基本结构分两段式编译器和三段式编译器。
在这里插入图片描述
前端：主要是去理解程序的语法形式和内容，即程序的语法和语义；然后，检查源程序代码是否符合正确的语法和语义，如果检查通过，它会给该程序建立一个中间表示代码。前端一般可分为4个阶段，分别为词法分析、语法分析、语义分析和中间代码生成。在这里插入图片描述
后端：主要任务是读入程序中间表示形式，并生成目标机器的指令代码，一般也可分为4个阶段，分别为指令选择、指令调度、寄存器分配以及代码发射。

三段式编译器即引入了中端，如下图所示：

中端，主要使用合适的优化来提高代码质量，并将优化后的程序输出给后端进行进一步编译。这里的“提高”可以有多种含义，通常指：执行速度更快、运行时耗费资源较少、占用的内存空间较小等，中端优化并不是越多越好，可能会出现互斥的情况，如优化执行速度有可能会导致占用的内存空间变大，所以优化需要根据具体目标进行优化，中端结构如下图所示：
在这里插入图片描述
引入中端目的

前端和后端解耦。即多个语言的前端都可以生成公共的中端代码，而中端代码又可以进一步生成不同目标机器的代码；
通用优化。在中端上，可设计并实现与语言以及目标机器无关的程序优化算法，对程序的性能、规模或其它指标进行通用优化。

编译器框架？

现代主流开源的编译器框架主要有GCC和LLVM，两者的驱动分别为gcc和clang，它们的架构如下图所示：
在这里插入图片描述

预处理器（Preprocessor）
一个源程序可能被分割成多个模块并且各个模块分别被存放于独立的文件中，那么把源程序聚合在一起的任务，会由预处理器来独立完成，此外，它还负责头文件包含和宏处理等工作。
汇编器（Preprocessor）
把编译器生成的汇编语言程序进行处理，生成可重定位的机器代码。
链接器（Linker）
大型程序经常被分成多个部分进行开发和编译，这称为分离编译（Separate Compilation）。因此，分离编译所产生的可重定位的机器代码，必须和其他可重定位的目标文件以及库文件链接到一起，才能形成真正能在机器上运行的二进制代码，这个任务由链接器完成。
加载器（Loader）
负责将可执行程序（如编译后的可执行文件）从存储介质（如硬盘、闪存等）加载到计算机的内存中，以便执行程序。
上述图文来自（https://zhuanlan.zhihu.com/p/652635682）

GCC和LLVM？

在这里插入图片描述

GCC
优点：经过多年开发和测试的成熟编译器，已经在各种平台上得到了广泛的验证和使用，在稳定性和性能方面非常可靠；
缺点：GCC虽然也是三段式设计，但是代码之间的耦合度过高，所以扩展难度比较大。
LLVM
优点：高度模块化，成为了许多编程语言的首选编译器基础设施；
缺点：文档更新速度慢，相对GCC在某些方面成熟度较低。

CMake和Make？

CMake和Make是构建软件,其工作涉及将源代码转换为可执行程序。make 更像是一个执行者,负责按照给定的规则执行构建操作,而 CMake 则是一个协调者,负责生成构建规则。
它们的主要区别:

构建配置方式:
Make 构建依赖于手写的 Makefile 文件,需要开发者手动编写构建规则。
CMake 则提供了一种更高级的配置方式,开发者通过编写 CMakeLists.txt 文件来定义构建逻辑,CMake 会根据该配置生成平台相关的 Makefile 或 Visual Studio 项目文件等。
可移植性:
Make 构建的可移植性较差,因为 Makefile 文件具有一定的平台依赖性。
CMake 具有很强的跨平台能力,可以生成适用于 Windows、macOS、Linux 等不同平台的构建配置文件。
构建过程复杂度:
对于简单的项目,Make 构建相对更加简单直接。
但对于大型复杂项目,CMake 的模块化配置和自动依赖管理能力更加出色,可以大大简化构建过程。
功能扩展性:
Makefile 的功能相对有限,需要开发者自行编写复杂的构建规则。
CMake 提供了大量内置功能和扩展模块,涵盖了项目组织、依赖管理、交叉编译等各种需求。

总的来说,Make 更适合小型项目,而 CMake 更适合中大型项目的构建管理。CMake 的可移植性、可扩展性更强,但对于简单项目来说可能显得稍显复杂。具体选择哪种构建系统,需要根据项目的具体需求进行权衡。

做编译器也分做底层和做上层的工作，两者的工作内容有什么区别？

底层编译器开发:
主要负责编译器的核心功能实现,如词法分析、语法分析、中间代码生成等。
需要深入理解编译原理,掌握编译器前端的设计与实现技术。
关注底层数据结构和算法的设计,优化编译性能和目标代码质量。
常需要对目标硬件架构有深入了解,以生成高效的机器码。
这部分工作要求扎实的计算机基础理论功底,如数据结构、算法分析、编程语言设计等。
上层编译器开发:
主要负责编译器的高层功能,如优化器、代码生成器、运行时系统等。
需要理解编译器的整体架构,掌握各个模块之间的接口和交互。
关注编译器的可扩展性、易用性、诊断性等,提升编译器的整体质量。
常需要与编译器用户进行沟通,了解需求并设计相应的编译器特性。
这部分工作更偏向于软件工程实践,需要较强的系统设计和用户体验设计能力。

总的来说:
底层开发者更注重编译器内核的实现细节,需要扎实的计算机基础理论功底。他们负责编译器的核心算法和数据结构设计,以及针对特定硬件架构的优化。
上层开发者更关注编译器的整体架构设计和用户体验,需要较强的系统设计和软件工程能力。他们负责编译器的高层功能设计,如优化器、代码生成器以及诊断和错误处理机制。

优化器、代码生成器、运行时系统？

优化器(Optimizer):
优化器的作用是在编译时对中间代码(IR)进行各种优化变换,以提高最终生成的目标代码的质量。
常见的优化技术包括死代码消除、循环展开、函数内联、公共子表达式消除等。
优化器需要深入理解IR的语义,并设计出高效的优化算法,在保证程序语义不变的前提下尽可能提高性能。
优化器是编译器的重要组成部分,对于编译出高质量的机器码至关重要。
代码生成器(Code Generator):
代码生成器负责将优化过的中间代码(IR)转换为目标机器的汇编指令或者字节码。
需要深入了解目标硬件的指令集架构,选择最优的指令序列并进行寄存器分配、内存访问优化等。
代码生成器的输出是真正能被CPU执行的低级别代码,是编译器的最终产物。
良好的代码生成算法对编译器的整体性能有很大影响。
运行时系统(Runtime System):
运行时系统是编译器为程序提供的支持性功能模块,在程序执行期间提供各种服务。
比如动态内存管理(垃圾回收)、异常处理、动态链接、profiling采样等。
运行时系统通常以库的形式提供给最终用户程序使用,是编译器的重要组成部分之一。
运行时系统的设计和实现质量也会影响到编译后程序的性能和可靠性。