NVD软件漏洞数据处理及分类方法总结

本文旨在构建一个有效的软件漏洞分类模型,利用深度学习方法,特别是TextCGRU,对NVD数据库的漏洞数据进行处理和分类。实验数据显示,模型在测试集上的准确率达到了95%,在宏精确率、宏召回率和宏F1-score上表现优秀。通过词向量表示和GRU结构,解决了词向量的高维和稀疏性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、前言

二、软件漏洞数据分析

三、软件漏洞分类实验流程

四、软件漏洞文本预处理

五、软件漏洞文本表示方法

六、软件漏洞分类模型构建

七、软件漏洞分类实验结果与分析

八、总结


一、前言

        本人基于网络空间安全研究方向做过入侵检测实验、软件缺陷分类实验、软件安全漏洞分类管理实验等,网络安全方向相关数据集可参看个人总结:网络安全相关数据集介绍与下载。

        本文的主要目的是为了构造一个有效的软件漏洞分类模型,该模型能有效提高软件漏洞分类管理的效率和软件漏洞分类的准确率。本文主要使用深度学习相关方法构造漏洞分类模型进行实验调研。

二、软件漏洞数据分析

        实验所用数据为美国国家计算机通用漏洞数据库(National Vulnerability Database,NVD)和中国国家信息安全漏洞库(China National Vulnerability Database of Information Security,CNNVD),主要以NVD漏洞数据库中的漏洞数据为基准数据,本次实验使用的是从2002年到2019年5月份的NVD漏洞数据。

        NVD漏洞数据库收录的漏洞数据具有唯一性,规范性,兼容性和统一性,采用国际编码语法规范,因此,可以作为软件漏洞分类研究的基准数据集。NVD漏洞数据库提供了XML和JSON两种格式的漏洞文件,本文使用的是XML格式的漏洞文件,文件中包含了漏洞的CVE-ID,CVSS_score,CVSS_Accuracyess,CVSS_vector,vuln-source,CWE-ID和vuln-summary等漏洞信息。

        在过去的十几年中,漏洞数量增长迅速,对NVD从2002年到2019年5月份的数据统计显示,漏洞总数高达121279条,其中包括未知漏洞类型就多达38868条。年度新增漏洞数量分布如下图所示:

        本实验选取从2002年到2019年5月份的43496条NVD漏洞数据进行实验研究,其中包含16个主要漏洞类型。不同漏洞类型统计数量分布如下图所示:

        实验使用Python编程语言从XML漏洞文件中提取CVE-ID,CWE-ID和vuln-summary三部分数据信息,不相关的字段和不完整的数据将被删除,提取的部分漏洞信息如下表所示:

CVE-ID

CWE-ID

vuln-summary

CVE-2019-9961

CWE-79

A cross-site scripting (XSS) vulnerability in ressource view in core/modules/resource/RESOURCEVIEW.php in Wikindx prior to version 5.7.0 allows remote attackers to inject arbitrary web script or HTML via the id parameter.

CVE-2019-9962

CWE-119

XnView MP 0.93.1 on Windows allows remote attackers to cause a denial of service (application crash) or possibly have unspecified other impact via a crafted file, related to VCRUNTIME140!memcpy.

        其中,CVE-ID表示每条漏洞的编号,CWE-ID表示漏洞类型,可以根据CWE标准得到漏洞具体类别,vuln-summary是对每条漏洞的详细描述信息 。

        根据CWE标准可获得每个CWE-ID所对应的漏洞类型如下表所示(包括漏洞类别的中英文版本):

CWE-ID

Vulnerability type

CWE-119

Buffer Errors

CWE-79

Cross-Site Scripting(XSS)

CWE-89

SQL Injection

CWE-22

Path Traversal

CWE-310

Cryptographic Issues

CWE-352

Cross-Site Request Forgery(CSRF)

CWE-189

Numeric Errors

CWE-125

Out-of-bounds Read

CWE-416

Use After Free

CWE-190

Integer Overflow or Wraparound

CWE-476

Null Pointer Dereference

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

探模之翼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值