论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

IronmanJay

已于 2022-12-14 12:11:11 修改

阅读量1.4k

点赞数 2

分类专栏：网络安全论文精读文章标签：论文阅读源码漏洞分析漏洞检测深度学习数据集构建

于 2022-12-14 12:09:44 首次发布

本文链接：https://blog.csdn.net/IronmanJay/article/details/128314378

版权

网络安全同时被 2 个专栏收录

46 篇文章

订阅专栏

论文精读

9 篇文章

订阅专栏

本论文相关内容

前言

本篇文章也是一篇综述性文章，主要论述了当前用于基于深度学习的漏洞检测的漏洞数据集的一些发展现状以及研究方向，不错的文章，值得一读。下面就是本篇论文的精读笔记！

应用于漏洞检测的漏洞数据集构建方法

摘要

本文首先指出，目前基于AI的漏洞检测系统侧重于设计各种AI模型以提高漏洞检测的准确性，而忽略了设计高效的AI漏洞检测模型最基本的问题：

缺乏足够的高质量漏洞数据
没有统一的标准化构建方法来满足不同漏洞检测模型的标准化评估

针对以上问题，本文主要研究如何利用数据挖掘和数据处理技术生成漏洞数据集，以促进漏洞发现，并对此领域的研究挑战和潜在研究方向提出了一些看法。

I. 引言

作者首先指出了一些关于漏洞危害老生常谈的问题，同时表明如今的机器学习技术为源代码漏洞检测提供了一个新的研究方向，基于机器学习漏洞检测技术的性能依赖于AI模型训练的优劣，而AI模型的训练又依赖于高质量的漏洞数据集，但是目前的数据集通常不能满足全部的需求。针对这一问题，本文做出如下贡献：

分析漏洞数据集构建的困难，并总结解决方案
总结过去十年在这一领域的所有最新研究，并分析流行漏洞数据集的优缺点
讨论需要在现有数据集中解决的一些问题，并描述对这些问题的潜在看法

II. 问题及解决方案

目前所使用的漏洞数据集几乎全部从以下数据库或方法中获得：

美国国家漏洞数据库NVD
丹麦漏洞数据库Secunia、SecurityFocus
中国国家信息安全漏洞共享平台CNVD
中国国家安全漏洞数据库CNNVD和NSFocus
手动注入漏洞
代码重写构建

尽管这些数据集以各种方式保存了基本信息、特征和安全漏洞解决方案等属性，但在构建数据集方面仍存在许多挑战。

A. 数据源可靠性问题

因为不同数据库对于漏洞的描述和规范不同，所以对于同一个漏洞，会导致多源漏洞数据集中的数据冗余或错误。相关统计结果如图1所示，可以发现NVD与其他漏洞数据库之间的匹配率不超过40%。

请添加图片描述

图1 NVD与其他漏洞数据库的精确匹配率

不仅对同一漏洞的描述不同，而且对于受同一漏洞影响的软件版本通常也不同，统计结果如表1所示，可以看到，NVD和SecurityFocus中受CVE-2018-20242漏洞影响的软件版本不同。

表I 不同数据库中不同版本的CVE-2018-20242示例

请添加图片描述

所以，导致数据源不可靠问题的原因通常包括：

同一漏洞描述规范和信息不对称
同一漏洞影响的软件版本范围不一致
同一漏洞的不同漏洞风险级别

那么究竟哪个漏洞数据库的漏洞更可靠、更适合训练模型，就需要手动检查，但这样不仅带来了巨大的人工消耗，而且还带有一定的主观性。所以为不同数据源中的同一漏洞制定统一的描述和检索规范非常重要。

B. 缺少多源数据

为了更好满足训练模型的需求，我们需要使用多个数据源的数据，但是通常这并不能实现，原因如下：

生成的数据集将不可避免地引入空值
数据源中缺少部分易受攻击的数据
不同数据源之间存在数据维度差异

为了解决漏洞数据集的不完整性问题，Rostami等人提出一种有监督的机器学习方法，以填充大多数漏洞样本中缺失的网络攻击行为分类值（ATT&CK）。但是此方法仍有一定的局限性：

无法学习数据集中未包含的分类特征
由于攻击行为的复杂性和部分通用性，对其建模很困难

C. 特征

漏洞样本包含的特征越多，对该漏洞的描述就越全面，也就有利于分辨代码是否包含漏洞。但是目前的漏洞数据仅收集漏洞的源代码和正常代码，缺乏对漏洞的全面描述，这同时又是一个两难的问题：

漏洞特征不足难以确定代码是否包含漏洞
漏洞特征过多会显著的降低模型的性能

虽然Xiao等人将漏洞代码与补丁代码以哈希值的形式存储，可以快速准确地识别代码重用漏洞，但是并没有解决所有类型漏洞的问题。所以如何选择漏洞最有特点的特征又不降低模型性能是目前需要研究的问题。

D. 粒度

高质量的数据集应该包含多个级别的粒度，如：

文件
类
函数

目前的漏洞数据集都是以函数作为基本粒度级，因为其可以缓解模型学习过多的正常代码而导致无法识别漏洞的情况。但是函数级粒度仍有存在一些局限性：

只能找到漏洞函数，无法精确定位与漏洞直接相关的代码
无法处理跨函数问题

综上，作者认为漏洞数据集的粒度应以代码片段为主，其中包含易受攻击和非易受攻击的代码语句。此思路已有具体的实现，如Li等人使用程序间程序切片技术提取漏洞相关语句并构建数据集，此方法的优点包括：

缓解了漏洞挖掘的跨函数问题
改进的程序切片技术可以处理源代码以生成语句粒度数据集

E. 数据集大小

要训练一个完美的漏洞检测模型，理想情况下漏洞数据集应做到：

包含全部类型的漏洞
漏洞数据集的数量足够大

但是，在真实世界的漏洞数据源几乎不可能同时做到以上两点，所以为了解决这个问题，目前正在研究开发人工漏洞合成数据集，具体做法包括：

向现有程序中注入漏洞
通过人工制作漏洞程序

目前已有对于这个思路的具体实现，比如：

Gavitt等人通过修改四个真实世界程序（base64、md5sum、uniq、who）的源代码，一次自动插入多个漏洞，生成了数据集LAVA-M。该数据集已广泛用于漏洞检测工具的性能评估。
Wang等人提出了一种改进的过采样技术，该技术在源代码级别修改关键语句以生成一组合成补丁数据，从而与基于NVD的数据集形成混合数据集。

经过实验表明，以上方法合成的漏洞数据集均可以提高漏洞检测模型识别漏洞的准确性。