nvcc编译器之编译内幕（chapter 2&3）

敩科炼技堂

已于 2022-11-17 10:14:30 修改

阅读量1.5k

点赞数 1

分类专栏： nvcc编译器文章标签：人工智能 ai

于 2022-11-17 10:14:11 首次发布

本文链接：https://blog.csdn.net/johnpub/article/details/127898575

版权

nvcc编译器专栏收录该内容

6 篇文章 3 订阅

订阅专栏

2. 编译阶段（步骤）

2.1 NVCC预定义宏

__NVCC__

在编译C/C++/CUDA源文件时定义

__CUDACC__

在编译CUDA源文件时定义

__CUDACC_RDC__

在编译可重定位（relocatable）设备端代码模式时定义(详见6.2章节)

__CUDACC_EWP__

在可扩展整个程序模式下编译CUDA源文件时定义（详见4.2.3章节）

__CUDACC_DEBUG__

在指定编译debug版本的CUDA源文件时定义（详见4.2.3章节）

__CUDACC_RELAXED_CONSTEXPR__

命令行中指定--expt-relaxed-constexpr标志位时定义，详细参阅《cuda C编程指南》

__CUDACC_EXTENDED_LAMBDA__

命令行中指定--expt-extended-lambda或者--extended-lambda标志位时定义，详细参阅《cuda C编程指南》

__CUDACC_VER_MAJOR__

随nvcc的major版本定义

__CUDACC_VER_MINOR__

随nvcc的minor版本定义

__CUDACC_VER_BUILD__

随nvcc的构建版本定义

2.2 NVCC编译步骤

nvcc的编译由几个不同的逻辑翻译步骤组成，这可以通过nvcc命令行选项来选择。

一个单独的编译阶段，也可以被NVCC分解成几个不同的步骤，这些步骤合并组成一个编译过程。然而，编译取决于nvcc所使用的（nvcc更像一个编译工具的集成者）内部编译套件，这些编译套件会随着CUDA工具套件的更新而改变。因此，在不同的发行版本中，只有统一的整个编译流程是稳定不变的。nvcc提供了一系列命令行选项来展示编译所执行的不同阶段，但这仅仅用作debug使用，不要拷贝并在构建脚本中使用。因为编译的中间结果依赖于特定的nvcc编译工具套件，多版本之间可能不兼容。

实际上，nvcc的编译除了依赖于编译选项，也依赖于输入文件的后缀。通过输入文件后缀确定编译阶段的输入，通过命令行选项确定编译阶段的输出。2.3章节会介绍NVCC支持的文件后缀，2.4章节会介绍NVCC支持的编译阶段。

2.3 NVCC支持的文件后缀

.cu：cuda源文件，包含了host代码和device代码
.c：C源文件
.cc,.cxx,.cpp：C++源文件
.ptx：ptx中间汇编码文件
.cubin：cuda设备端可执行二进制码文件（单GPU架构下）
.fatbin：cuda fat二进制文件，可以包含多个ptx码和cubin码文件
.o,.obj：对象文件
.a,.lib：库文件
.res：资源文件
.so：动态库文件

2.4 支持的编译阶段

下表介绍支持的编译阶段和相关的命令行选项，以及不同编译阶段的默认输出文件名称（当不使用--output-file选项时）：

Phase	nvcc选项		默认输出文件名称
Phase	长	短	默认输出文件名称
cuda编译到C/C++源文件	--cuda	-cuda	x.cpp.ii，x表示源文件名。该输出文件可以通过host编译器进行后续编译，nvcc使用host编译器对.cu文件进行预处理
C/C++预处理	--preprocess	-E	标准的预处理输出
C/C++编译到目标文件	--compile	-c	x.o(Linux和Mac OS X)，x.obj（Windows）
从cuda源文件生成cubin文件	--cubin	-cubin	x.cubin
从ptx中间码生成cubin文件	--cubin	-cubin	x.cubin
从cuda源文件生成ptx中间码文件	--ptx	-ptx	x.ptx
从源文件，ptx或cubin文件生成fatbin文件	--fatbin	-fatbin	x.fatbin
链接生成设备端的可重定位代码	--device-link	-dlink	a_dlink.obj(Windows)或a_dlink.o（Linux, Mac OS X）
从设备端可重定位代码生成设备端cubin二进制	--device-link --cubin	-dlink -cubin	a_dlink.cubin
从设备端可重定位代码生成fatbin	--device-link --fatbin	-dlink -fatbin	a_dlink.fatbin
链接生成可执行文件	无选项		a.out(Linux, Mac OS X)或a.exe(Windows)
目标文件打成包或库	--lib	-lib	a.a(Linux, Mac OS X)或a.lib(Windows)
生成依赖	--generate-dependencies	-M	标准的输出
生成不包含系统path路径的依赖	--generate-nonsystem-dependencies	-MM	标准输出
运行可执行文件	--run	-run	直接运行编译好的可执行文件，无需指定库路径（LD_LIBRARY_PATH）

在不指定具体命令行选项的时候，nvcc编译并链接所有输入的文件。

3. CUDA 编译内幕

cuda编译过程如下：

1) 源程序进行设备端（GPU）代码编译前的预处理，预处理后编译成cuda二进制（cubin）和（或）ptx中间码，放到fatbin文件中

2）源程序进行主机端（CPU）代码编译前的预处理，预处理后合入fatbin进去，并转换所有cuda C++扩展语法到标准的C++语法

3）host主机侧编译器编译合并后的代码（标准C++，以及嵌入了fatbin设备端代码）成目标文件。

当主机（端）程序启动（launch）运行设备端（__global__）代码时，cuda运行时系统会检查嵌入的fatbin代码，并获取适合当前GPU运行的fatbin（也就是说其中可以有支持各个不同架构GPU的fabin码嵌入在host程序中？）

cuda程序默认是被整体编译的，即设备端代码（C++文件对外暴露的函数和变量等）无法在另外一个文件中被引用。在整体编译模式下，设备代码的链接步长是无影响的。有关整体编译和分开编译，可以参考第6章节。

CUDA编译原理如下：

关于作者：

犇叔，浙江大学计算机科学与技术专业，研究生毕业，而立有余。先后在华为、阿里巴巴和字节跳动，从事技术研发工作，资深研发专家。主要研究领域包括虚拟化、分布式技术和存储系统（包括CPU与计算、GPU异构计算、分布式块存储、分布式数据库等领域）、高性能RDMA网络协议和数据中心应用、Linux内核等方向。

专业方向爱好：数学、科学技术应用

关注犇叔，期望为您带来更多科研领域的知识和产业应用。

内容坚持原创，坚持干货有料。坚持长期创作，关注犇叔不迷路