网络安全领域的数据集种类丰富,覆盖入侵检测、恶意软件分析、网络流量监控、钓鱼攻击识别等多个方向。这些数据集不仅支持传统机器学习模型的训练,还可用于微调大语言模型(LLMs)以提升特定任务的性能。以下是关键数据集及其适用场景的详细分类和分析:
一、综合类数据集
-
SecRepo.com
- 特点:整合了多种安全事件日志、网络流量样本和漏洞信息,支持跨领域研究。
- 应用:适用于构建通用威胁检测模型。
-
AZSecure
- 特点:包含多源异构数据,如DNS查询记录、HTTP请求和恶意软件行为日志。
- 应用:用于多模态网络安全分析。
二、网络流量与入侵检测数据集
1. DARPA Intrusion Detection
- 特点:包含LLDOS-1.0和LLDOS-2.0.2攻击流量,由MIT Lincoln实验室标注,涵盖源/目标IP连接模式。
- 应用:评估入侵检测算法的基础数据集,尤其适合DD