GCC中的自动向量化（1）

最新推荐文章于 2025-04-01 16:04:16 发布

softee

最新推荐文章于 2025-04-01 16:04:16 发布

阅读量8.6k

点赞数 1

分类专栏：心得文章标签： gcc 向量化 vectorize

心得专栏收录该内容

28 篇文章

订阅专栏

本文是阅读Dorit Naishlos的文章“Autovectorization in GCC”时做的笔记。

在使用了语法树上的静态单赋值（tree SSA）优化框架之后，GCC已经具备了支持自动向量化的能力。目前对向量化的一个限制是，向量化必须在不存在迭代间数据依赖的前提下才能实施。
SIMD的向量化与传统向量机的不同在于，SIMD每次向量化的数组元素较少，随着数组元素类型的不同，可以向量化的数组元素数目也有变化，这个叫做向量化因子。
GCC中的自动向量化可以分为两类。

针对循环的。处理循环中不同迭代之间的数据并行。
针对普通串行代码的。这部分的并行技术叫做SLP（Superword Level Parallelism）。

传统自动向量化技术与SIMD自动向量化技术的区别。

传统的技术主要是面向Fortran语言的科学计算程序。而SIMD则更侧重于C语言。C语言中的指针机制会带来新的问题。
SIMD架构下的内存结构要弱一些，对能够自动向量化的代码有着更严苛的要求。
- 只能访问连续内存，要求向量长度倍数的对齐。
- 有的平台下面有一些处理这些内存问题的机制，但是往往比较难以使用并且具有较高的开销。
- SIMD指令不够通用和规范。有些操作是与领域相关，有些只作用于某些数据类型上，不同架构的指令又不相同。

GCC中的数据依赖分析与向量化

数据依赖分析主要通过三个步骤。

建立数据依赖图DDG（Data Dependence Graph）。
- nodes: 代表loop语句。
- edges: 表示依赖关系，可以是标量之间，也可以是内存引用之间。
内存相关性的检测，可以通过比较下标的相关性测试来判断，在（tree-data-ref.c文件中实现）。
通过检测DDG中的SCC（Strong Connected Components）来判断是否可以自动并行。

为解决SCC带来的无法向量化问题，可以使用loop distribution操作来把一个循环中的语句拆开，一个SCC对应一个循环（这个技术在作者写作本文时尚未在GCC中实现，但是目前已经实现）。
选项-ftree-vectorize同时使能了两个选项：ftree-loop-vectorize和ftree-slp-vectorize。前者实现循环中的自动向量化，后者实现串行代码中的自动向量化。
实现循环向量化的主体函数是vectorize_loops，它主要分为分析（vect_analyze_loop）和转换两个部分（vect_transform）。

vect_analyze_loop
- vect_analyze_loop_form
- analyze_data_refs
- analyze_scalar_cycles
- analyze_data_ref_dependence
- analyze_data_ref_accesses
- analyze_data_ref_alignment
- analyze_operation
vect_transform
- vect_transform_stmt
- vect_transform_loop_bound

自动向量化对循环的形式是有要求的，需满足如下条件。