Buffer Overflow Vulnerability Prediction from x86 executables using Static Analysis and ML

最新推荐文章于 2022-11-28 11:29:49 发布

我爱写报告

最新推荐文章于 2022-11-28 11:29:49 发布

阅读量448

点赞数

分类专栏：论文笔记

论文笔记专栏收录该内容

49 篇文章 10 订阅

订阅专栏

题目： Buffer Overflow Vulnerability Prediction from x86 executables using Static Analysis and Machine Learning
作者： Bindu Madhavi Padmanabhuni, Hee Beng Kuan Tan
单位： School of Electrical and Electroinc Engineering, Nanyang Technological University
出版： Computer Software & Application Conference(COMPSAC), 2015

解决的问题

二进制代码的缓冲区溢出问题

所用工具

ida-pro

利用ida-pro商业反汇编器识别局部和全局变量

全局变量在汇编指令中用地址进行访问
局部变量在汇编指令中用栈帧偏移来进行访问
将一个变量视为从已知地址（或偏移）到下一个已知地址（或偏移）

BinAnalysis（在Rose上搭建的二进制分析工具）

提供x86汇编指令的语义，使我们能够抓住帮助常量传播的机器状态，并且识别间接分支和调用，这些可以通过常量传播静态地确定。

VulMiner

作者自己实现的工具，用来从Rose的分析结果中提取下面将要提到的特征。

静态分析过程

反汇编和变量信息

包括函数边界识别和变量信息收集。

利用IDA Pro来识别函数和变量信息
输入BinAnalysis（在Rose上搭建的二进制分析工具），为每个函数构建AST和CFG

控制依赖

利用函数的CFG来计算过程内控制依赖。Rose提供了从CFG构建后向支配关系的API，这被用来找到直接后序支配一个结点z后序支配结点n，即所有从n开始的流向exit结点的路径都经过结点z。

利用函数摘要进行数据依赖的计算

我们利用CFG和变量信息来分析容器级别的过程间数据依赖。容器级别的意思是对于容器数据的访问，我们的工具以整个容器为单位计算数据依赖。对于结构体，当struct信息能够从IDA Pro得知时，我们利用struct的偏移来识别struct中变量的边界。
Rose提供了能够仿真一个x86指令基本块执行的符号语义。每个基本块与一个符号状态相关联。符号状态表示寄存器，内存和标志位的状态。我们对CFG的仿真过程进行增强。我们也利用库函数原型对库函数的调用进行模拟。
通过分配一个新的符号值来处理符号状态的融合。对于有多个返回块的函数，所有返回块的状态融合成一个最终的返回状态。我们利用标准worklist算法来进行过程内数据依赖分析。
为提高效率，我们利用函数摘要来进行过程间分析。函数摘要是用来表示调用效果的，上下文无关的摘要。当函数被调用时，基于调用上下文和合成的函数摘要，控制和数据依赖信息被更新并传回调用函数。调用函数重新开始分析。
为生成函数摘要，函数被符号化执行来记录已知的依赖，以及收集未知的引用。在分析期间，寄存器，标志位，全局变量，参数值和动态分配的变量的定义都被收集，并且函数的最终状态通过聚集全局变量，函数参数值，动态分配变量和返回块的eax，esp等等来生成。
为应用函数摘要，首先被调用函数的摘要被重用，在被调用函数的未知引用与调用函数中对这些引用的定义之间的数据依赖被建立。我们遍历在被调用函数中生成的定义，并且更新它们在调用函数中的入口。状态信息也用类似方法更新。随后便进行调用者下一条指令的分析。