Versioned Staged Flow-Sensitive Pointer Analysis

I still …

于 2024-09-06 22:46:34 发布

阅读量541

点赞数 19

分类专栏：指针分析程序分析文章标签：程序分析

本文链接：https://blog.csdn.net/qq_44370676/article/details/141958906

版权

程序分析同时被 2 个专栏收录

36 篇文章 13 订阅

订阅专栏

指针分析

6 篇文章 1 订阅

订阅专栏

VSFS

1.Introduction
2.Approach
- 2.1.相关概念
- 2.2.VSFS
3.Evaluation
参考文献

1.Introduction

上一篇blog我介绍了目前flow-sensitive pointer analysis常用的SFS算法。相比IFDS-based方法，SFS显著通过稀疏分析提升了效率，但是其内部依旧有许多冗余计算，留下了很大优化空间。

以下图为例，其内容展示的是基于Andersen计算的SVFG，当前Andersen分析的结果中 pts(p) = {o}, pts(q) = {a}, pts(r) = {b}。其中图中5个代码块分别对应2个 store 指令 l1: *p = q 和 l2: *p = r 以及3个 load 指令 l3: x = *_、l4: y = *_、l5: z = *_。其中 l3, l4, l5 加载的指针都可能指向 o。图中存在value-flow edge包括： $l_1 \stackrel{o}{\rightarrow} l_3$ ， $l_1 \stackrel{o}{\rightarrow} l_4$ ， $l_1 \stackrel{o}{\rightarrow} l_5$ ， $l_2 \stackrel{o}{\rightarrow} l_4$ ， $l_2 \stackrel{o}{\rightarrow} l_5$ ， $l_1 \stackrel{o}{\rightarrow} l_2$ 。

请添加图片描述

根据SFS算法，每个 store 指令需要IN和OUT集合保存incoming和outgoing pointer information，将address-taken variable映射为指向的address-taken variable集合。而 load 指令则需要一个IN集合。下图左上部分为SFS分析上图SVFG时涉及到的point-to map， $pt_{l_1|}(o)$ 表示address-taken variable $o$ 在 $l_1$ 出口处的point-to map， $pt_{|l_2}(o)$ 为 $o$ 在 $l_2$ 入口处的point-to map。这里 $l_1$ 的出口处可直达 $l_2$ 出口处，不管怎么迭代多少轮， $pt_{l_1|}(o)$ 和 $pt_{|l_2}(o)$ 的值恒等，因此可以合并到一起，不用多个map保存，其它的point-to map同理类似。

作者因此提出Versioned Staged Flow-Sensitive Pointer Analysis (VSFS)，首先通过pre-analysis分析object的version，随后压缩point-to map数量，经过压缩后可将6个point-to map压缩到3个。

请添加图片描述
压缩后的point-to map会被赋予version id，可用来获取对应的point-to map，这里version $k_1$ 对应 $l_1$ 出口处和 $l_2$ , $l_3$ 入口处 $o$ 的version。 $k_1 \diamond k_2$ 表示合并 $k_1$ 、 $k_2$ version的结果。

2.Approach

2.1.相关概念

定义：

$C_l(o)$ ，表示address-taken variable $o$ 在指令 $l$ 的入口处consume的version，返回的是version，也就是入口处version。
$Y_l(o)$ ，表示address-taken variable $o$ 在指令 $l$ 的出口出yield的version，返回version。

一切point-to set都需要通过version访问，因此VSFS的分析过程满足下面关系：

$C_l(o) = C_{l^{'}}(o) \Rightarrow pt_{|l}(o) = pt_{|l^{'}}(o)$
$C_l(o) = Y_{l^{'}}(o) \Rightarrow pt_{|l}(o) = pt_{l^{'}|}(o)$
$Y_l(o) = Y_{l^{'}}(o) \Rightarrow pt_{l|}(o) = pt_{l^{'}|}(o)$

前面的示例中， $Y_{l_1}(o) = C_{l_2}(o) = C_{l_3}(o) = k_1$ ，而 $C_{l_4}(o) = C_{l_5}(o) = k_1 \diamond k_2$ ，表示接受了来自version $k_1$ 和 $k_2$ 的信息。

version之间的运算满足下面定律

请添加图片描述

作者这里用unsigned interger来表示version。在LLVM IR中只有 store 和 $\Phi$ 指令可能生成新的version（store 是因为flow-sensitive分析之前无法确定该指令是否会修改对应address-taken variable的指向，因此保守认为会产生新的version， $\Phi$ 指令则是进行合并操作产生新version。）

version分析可分为prelabel和meld 2个阶段，prelabel类似初始化，meld类似传播分析，prelabel之前每个指令（store, load 对应的version id都会被设置为 $\varepsilon$ ），prelabel对应的规则如下图所示：

$n v (o)$ 表示给 $Y_l(o)$ 分配新的version
$pt^a(p)$ 则是AUX（Andersen）分析的 $p$ 的point-to map
$\delta(l)$ 表示指令 $l$ 要么是间接调用指令，或者是可能被间接调用的函数的入口指令，这里用到的是AUX分析出的间接调用结果（paper中给出的形式化描述有点晦涩难懂，看SVF代码分析的）。

请添加图片描述
Meld阶段对应的传播规则如下：

$INTERNAL]^V$ 对应的是非 store 指令内部的传播规则，即该指令IN和OUT处version一致。
$EXTERNAL]^V$ 对应的是value-flow edge两端的指令之间的传播规则

请添加图片描述

2.2.VSFS

完整的传播规则如下图所示，红框中标出的为VSFS相比SFS改进的部分，传播过程的多了查询version的步骤。

请添加图片描述下面这张图是SFS中 store 指令的传播规则，其中的框则为VSFS规则中对应修改的部分：

请添加图片描述

3.Evaluation

作者用了15个open-source project，用clang-10与wllvm在 o3 level下将project编译为LLVM IR。

请添加图片描述
与SFS的性能对比如下图所示，论时间开销平均分析速度相比SFS快了5.31倍，最高加速达到26.22，论内存开销平均节省了2.11倍，最高节省了5.46倍。

请添加图片描述

参考文献

Barbar M, Sui Y, Chen S. Object versioning for flow-sensitive pointer analysis[C]//2021 IEEE/ACM International Symposium on Code Generation and Optimization (CGO). IEEE, 2021: 222-235.

I still …

关注

19
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Versioned Staged Flow-Sensitive Pointer Analysis

要么是间接调用指令，或者是可能被间接调用的函数的入口指令，这里用到的是AUX分析出的间接调用结果（paper中给出的形式化描述有点晦涩难懂，看SVF代码分析的）。压缩后的point-to map会被赋予version id，可用来获取对应的point-to map，这里version。完整的传播规则如下图所示，红框中标出的为VSFS相比SFS改进的部分，传播过程的多了查询version的步骤。的入口处consume的version，返回的是version，也就是入口处version。
复制链接

扫一扫

专栏目录