代码审查是检查代码中存在缺陷的重要手段,通常分为两阶段进行,一个阶段在代码解析阶段进行,主要应用词法分析、语法分析以及控制流分析等技术检测同数据传递无关的代码缺陷,另外一个阶段是在代码解析后进行,主要应用数据相关路径遍历等技术检测同数据相关的代码缺陷。同数据传递无关的代码缺陷检测技术已经非常成熟,而同数据传递相关检测技术在现阶段却进展缓慢,主要原因是数据相关路径遍历技术仍不成熟。
对于缓冲区溢出、越界访问、sql注入、路径注入等代码缺陷,通常需要应用数据相关路径遍历技术。数据相关路径遍历在遍历过程中除了要结合路径的自有属性(比如来源,去向等)进行分析外,还要对路径所途径的数据进行处理并分析,而且,路径的自有属性可能会受到途径数据的影响。相比较而言,数据相关路径遍历能够在静态的情况下对代码运行进行抽象模拟,因而能够对代码进行更深层次的分析。
理论上,完全路径遍历才能够确保代码安全性分析的准确性和完整性。完全路径遍历有两个层面的含义:一个层面是指单条路径中的所有节点都准确遍历;另外一个层面是指被分析代码中的所有路径都准确遍历。完全路径遍历的前提不少于以下几个:
- 路径总数明确
- 路径总数在测试资源(内存、硬盘、时间等)的允许范围内
- 路径的长度在测试资源(内存、硬盘、时间等)的允许范围内
- 具备数据相关路径遍历技术能力
对于数据相关路径遍历来说,尽管在被分析代码结构相对简单的时候,能够实现完全的路径遍历,但对于复杂软件来说,被分析代码中往往会存在循环、递归、并发、异常处理等代码结构,而这些代码结构可能会导致路径过长、海量路径数、抽象路径数、未知路径数等情形的出现,这就使得完全路径遍历非常困难。进而影响软件代码安全性分析的正确性及完整性,导致相应的漏报及误报。
同这个问题相对应,在代码审查领域,对于数据相关路径遍历的研究的重要内容之一就是尽量扩大完全路径遍历的适用范围。具体的说就是从能够准确处理的特殊代码结构中,挖掘出那些能够准确处理以至于不对完全路径遍历造成任何不良影响的代码结构类型,并研发应用于自动代码审查工具中的相应的处理技术,进而增强代码审查能力。