VulSniper: Focus Your Attention to Shoot Fine Grained Vulnerabilities
IJCAI19
提出了一种新的程序建模方法
提出了一种新的网络结构
建模方法:
-
生成代码属性图(CPG)。
用 Joern 生成代码代码属性图(CPG),然后存在Neo4j数据库中。
作者将生成的CPG简化了,只保留了CFG和AST。
-
将简化后的代码属性图(CPG)转化成特征张量。
特征张量T(G)的shape是(n,n,m)。G表示的是代码性质图,包括有n个节点{v1,v2,…,vn}。任意ti,j,k属于T(G)都需满足以下条件:
f(k)表示的是第k个相关特征,relations(vi,vj)表示的是节点vi,vj之间的关系特征。当relations(vi,vj)与f(k)之间的关系满足某条件时那么就返回 true。
m值的大小是根据不同的编程语言来确定的,这里的m值是144(这个144指的与C/C++相对应的特征个数)。
将程序进行语义分割???
即每个程序语句是什么具体语义。(首先要对程序语句的语义进行规范,总结。一共有哪几种语义)
搞清楚一个问题,漏洞是程序语句中的实际某个token(这个token可以表示某个变量,函数等)对这些的影响。
即漏洞归根到底是不合适的操作导致的 还是不合适的数据导致的,还是两者的结合。
数据集的规范问题???
不同的paper中都有自己的数据集。比如对于都是从SARD中提取出来的函数源码,如果只是二分类问题即程序是否有漏洞,那么这个这个label应该也是一致的。这种情况下,如果因为不同的建模需要,对源码进行的预处理,这个我认为不算作在数据集规范里。