KDD99数据集的特征(Features)介绍
首发于我的博客:寒山雨的个人博客
KDD99是一个用来从正常连接中监测非正常连接的数据集。产出于1999年Thrid International Knowlegde Discovery and Data Mining Tools Competition,其目的是建立一个稳定的的入侵检测系统。
KDD99包含了置入攻击的军事网络环境中的记录。攻击可以分类为:
- DoS攻击:Denial of Service
- R2U:Remote to User
- U2R:User to Root
- 探针攻击:Probing
KDD99数据集是 DARPA数据集 的 特征提取(Feature Extract) 版本( DARPA 是原始数据集)KDD99对每个连接提取了 41 个特征,使用Bro-IDS工具对数据贴标签。
其41个特征可以按以下方式分类:
- 1-9 TCP连接的基本特征
- 10-22 TCP连接的内容特征
- 23-31 基于时间的网络流量统计特征,使用2秒的时间窗(Traffic features computed using a two-second time window)
- 32-41 基于主机的网络流量统计特征,主机特征(Host features),用来评估持续时间在两秒钟以上的攻击
TCP连接的基本特征
feature name | description | type |
---|---|---|
duration | length (number of seconds) of the connection 连接的持续时间,以秒(s)为单位 [0 ~ 58329] 它的定义是从TCP连接以3次握手建立算起,到FIN/ACK连接结束为止的时间;若为UDP协议类型,则将每个UDP数据包作为一条连接。(数据集中出现大量的duration=0 的情况,是因为该条连接的持续时间不足1秒.) |
continuous 连续 |
protocol_type | type of the protocol, e.g. tcp, udp, etc. 协议类型,此数据集中有三种: TCP, UDP, ICMP |
discrete 离散 |
service | network service on the destination, e.g., http, telnet, etc. 连接目的端的网络服务。有70+种: aol, auth, bgp, courier, csnet_ns, ctf, daytime, discard, domain, domain_u, echo, eco_i, ecr_i, efs, exec, finger, ftp, ftp_data, gopher, harvest, hostnames, http, http_2784, http_443, http_8001, imap4, IRC, iso_tsap, klogin, kshell, ldap, link, login, mtp, name, netbios_dgm, netbios_ns, netbios_ssn, netstat, nnsp, nntp, ntp_u, other, pm_dump, pop_2, pop_3, printer, private, red_i, remote_job, rje, shell, smtp, sql_net, ssh, sunrpc, supdup, systat, telnet, tftp_u, tim_i, time, urh_i, urp_i, uucp, uucp_path, vmnet, whois, X11, Z39_50 |
discrete 离散 |
src_bytes | number of data bytes from source to destination 从源主机到目的主机数据的字节数 [0 ~ 1379963888] |