LLVM 编译器

hxsln11

于 2024-08-17 15:19:04 发布

阅读量204

点赞数 5

分类专栏：编译原理文章标签：编译器

本文链接：https://blog.csdn.net/hxsln11/article/details/141280954

版权

编译原理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.图片

LLVM是一套编译器基础设施项目，为自由软件，以C++写成，包含一系列模块化的编译器组件和工具链，用来开发编译器前端和后端。它是为了任意一种编程语言而写成的程序，利用虚拟技术创造出编译时期、链接时期、执行时期以及“闲置时期”的优化。

它最早以C/C++为实现对象，而目前它已支持包括ActionScript、Ada、D语言、Fortran、GLSL、Haskell、Java字节码、Objective-C、Swift、Python、Ruby、Crystal、Rust、Scala [2]以及C#[3]等语言。

历史

LLVM项目的发展起源于2000年伊利诺伊大学厄巴纳-香槟分校维克拉姆·艾夫（Vikram Adve）与克里斯·拉特纳（Chris Lattner）的研究，他们想要为所有静态及动态语言创造出动态的编译技术。LLVM是以BSD许可来发展的开源软件。2005年，苹果电脑雇用了克里斯·拉特纳及他的团队为苹果电脑开发应用程序系统[4]，LLVM为现今macOS及iOS开发工具的一部分。

LLVM的命名最早源自于底层虚拟机（Low Level Virtual Machine）的首字母缩写 [5]，由于这个项目的范围并不局限于建立一个虚拟机，这个缩写导致了广泛的疑惑。LLVM开始成长之后，成为众多编译工具及低端工具技术的统称，使得这个名字变得更不贴切，开发者因而决定放弃这个缩写的意涵[6]，现今LLVM已单纯成为一个系统，适用于LLVM下的所有项目，包含LLVM中介码（LLVM IR）、LLVM调试工具、LLVM C++标准函数库等。

因LLVM对产业的贡献，计算机协会于2012年将ACM软件系统奖授与维克拉姆·艾夫、克里斯·拉特纳及Evan Cheng [7]。

自9.0.0版本开始，LLVM使用带有LLVM额外条款的Apache许可证2.0进行授权[8]。而从2019年10月开始，LLVM项目的代码托管正式迁移到了GitHub [9]。

程序执行
基础概念
代码翻译器编译器优化编译器中间语言程序执行运行时系统执行期可执行文件解释器虚拟机
代码类型
源代码目标代码字节码机器代码微程序
编译策略
即时编译（JIT）跟踪即时编译提前编译（AOT）源代码至源代码编译器动态重编译
知名运行环境
Android Runtime（ART）通用语言运行库（CLR） crt0 Java虚拟机（JVM） V8 Node.js PyPy Zend引擎
著名编译器及工具链
GNU编译器套装（GCC） LLVM Clang
查论编

描述

LLVM提供了一套适合编译器系统的中间语言（Intermediate Representation，IR），有大量变换和优化都围绕其实现。经过变换和优化后的中间语言，可以转换为目标平台相关的汇编语言代码。LLVM可以和GCC工具链一起工作，允许它与为该项目编写的大量现有编译器一起使用。LLVM还可以在编译、链接时生成可重新定位的代码（Relocatable Code），甚至在运行时生成二进制机器码。

LLVM的中间语言与具体的语言、指令集、类型系统无关，其中每条指令都是静态单赋值形式（SSA），即每个变量只能被赋值一次。这有助于简化变量之间的依赖分析。LLVM允许静态编译代码，或者通过实时编译（JIT）机制将中间表示转换为机器码（类似Java）。

LLVM支持与语言无关的指令集架构及类型系统 [10]。每个在静态单赋值形式（SSA）的指令集代表着，每个变量（被称为具有类型的寄存器）仅被赋值一次，这简化了变量间相依性的分析。LLVM允许代码被静态的编译，包含在传统的GCC系统底下，或是类似JAVA等后期编译才将IF编译成机器代码所使用的即时编译（JIT）技术。它的类型系统包含基本类型（整数或是浮点数）及五个复合类型（指针、数组、向量、结构及函数），在LLVM具体语言的类型建制可以以结合基本类型来表示，举例来说，C++所使用的class可以被表示为结构、函数及函数指针的数组所组成。

LLVM JIT编译器可以优化在执行时期时程序所不需要的静态分支，这在一些部分求值（Partial Evaluation）的案例中相当有效，即当程序有许多选项，而在特定环境下其中多数可被判断为是不需要。这个特色被使用在Mac OS X Leopard（v10.5）底下OpenGL的流水线，当硬件不支持某个功能时依然可以被成功地运作[11]。OpenGL堆栈下的绘图程序被编译为IR，接着在机器上执行时被编译，当系统拥有高阶GPU时，这段程序会进行极少的修改并将传递指令给GPU，当系统拥有低端的GPU时，LLVM将会编译更多的程序，使这段GPU无法执行的指令在本地端的中央处理器执行。LLVM增进了使用Intel GMA芯片等低端机器的性能。一个类似的系统发展于Gallium3D LLVMpipe，它已被合并到GNOME，使其可运行在没有GPU的环境[12]。

根据2011年的一项测试，GCC在执行时期的性能平均比LLVM高10%[13][14]。而2013年测试显示，LLVM可以编译出接近GCC相同性能的执行码[15]。

编译器

LLVM已经成为多个编译器和代码生成相关子项目的母项目。

前端

LLVM最初被用来取代GCC中的代码产生器[16]，许多GCC的前端已经可以与其运行，LLVM目前支持Ada、C语言、C++、D语言、Fortran、Haskell、Julia、Objective-C、Rust及Swift的编译，它使用许多的编译器，有些来自4.0.1及4.2的GCC。

LLVM引发一些人来为许多语言开发新的编译器，其中一个最引发注意的就是Clang，它是一个新的编译器，同时支持C、Objective-C以及C++。主要来自苹果电脑的支持，Clang的目的用以取代GCC系统底下的C/Objective-C编译器，在当代的系统，他较为容易与集成开发环境（IDE）集成，而且对于线程有更好的支持。Clang从3.8版本开始已经支持OpenMP [17]。GCC底下Objective-C的开发已经停滞，而苹果电脑已经将其支持移至其他的维护分支。

Utrecht Haskell编译器可以产生LLVM使用的代码，但它还在初期的开发阶段，并且在许多案例，展示他比起C代码产生器拥有更好的效率[18] Glasgow Haskell Compiler（GHC）拥有一个可以运作的LLVM后端，程序执行性能对比起原先的编译器可以达到30%的加速，它仅比一个由GHC所实现，并拥有多项优化技术的编译器还慢[19]

还有其他的组件在不同的开发阶段，包含（但不限于）Java bytecode [20]、通用中间语言（CIL）、MacRuby（实现Ruby 1.9）、Standard ML及新的graph coloring寄存器配置. [来源请求]

中间表示

LLVM的核心是中间表示（Intermediate Representation，IR），一种类似汇编的底层语言。IR是一种强类型的精简指令集（Reduced Instruction Set Computing，RISC），并对目标指令集进行了抽象。例如，目标指令集的函数调用惯例被抽象为call和ret指令加上明确的参数。另外，IR采用无限个数的暂存器，使用如%0，%1等形式表达。LLVM支持三种表达形式：人类可读的汇编，在C++中对象形式和序列化后的bitcode形式。

例如，一个简单的Hello World程序可以表达为如下的汇编形式。对IR语言的完整描述请参考LLVM官方文档[21]：

@.str = internal constant [14 x i8] c"hello, world\0A\00"

declare i32 @printf(i8*, ...)

define i32 @main(i32 %argc, i8** %argv) nounwind {
entry:
    %tmp1 = getelementptr [14 x i8], [14 x i8]* @.str, i32 0, i32 0
    %tmp2 = call i32 (i8*, ...) @printf( i8* %tmp1 ) nounwind
    ret i32 0
}

@.str = internal constant [14 x i8] c"hello, world\0A\00"

declare i32 @printf(i8*, ...)

define i32 @main(i32 %argc, i8** %argv) nounwind {
entry:
    %tmp1 = getelementptr [14 x i8], [14 x i8]* @.str, i32 0, i32 0
    %tmp2 = call i32 (i8*, ...) @printf( i8* %tmp1 ) nounwind
    ret i32 0
}

后端

至11.0版本，LLVM已经支持多种后端指令集，包括ARM、Qualcomm Hexagon、MIPS、Nvidia并行指令集（LLVM中称为NVPTX），PowerPC、AMD TeraScale [22]、AMDGPU、SPARC、SystemZ、RISC-V、WebAssembly、x86、x86-64和XCore。

LLVM包含一个专门的MC模块，将机器指令在文字形式和机器码形式间相互转换。在之前LLVM依靠系统或是平台专门的工具链将汇编翻译为机器码。LLVM机器码的集成汇编器已经支持绝大多数LLVM的目标平台。

链接器

lld链接器子项目旨在为LLVM开发一个内置的，平台独立的链接器[23]，去除对所有第三方链接器的依赖。在2017年5月，lld已经支持ELF、PE/COFF、和Mach-O。在lld支持不完全的情况下，用户可以使用其他项目，如GNU ld链接器。 lld支持链接时优化。当LLVM链接时优化被启用时，LLVM可以输出bitcode而不是本机代码，而本机代码生成由链接器优化处理。

C++标准库

LLVM项目包含一个C++标准库的实现（libcxx），具有MIT许可证和UIUC许可证的双许可协议。

hxsln11

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
LLVM 编译器

1.图片是一套基础设施项目，为，以写成，包含一系列模块化的编译器组件和，用来开发编译器和。它是为了任意一种而写成的程序，利用创造出以及“闲置时期”的优化。它最早以为实现对象，而目前它已支持包括字节码、以及等语言。
复制链接

扫一扫

专栏目录