数据处理
-
date,由于数据集中在九月5日,只有950例在6日,相对于15000+的数据来说,容量太小,因此选择放弃记录日期,只记录时分秒。
-
id:统计发现,几乎每一例记录都存在一个唯一的id,应该属于随机生成的部分,因此选择放弃
-
_index ,alert.action alert.category,alert.gid,alert.signature,alert.severity,alert.signature_id,app_proto,dest_ip,event_type,eventid,fileinfo.magic,fileinfo.magic,fileinfo.md5,fileinfo.state,geoip.as_org,geoip.asn经统计发现,数据只有少量类别,因此采取映射到独热编码
-
alert.metadata.created_at,alert.rev,destfile,dns.answers,dns.id,dns.rrtype,duration,fileinfo.filename,fileinfo.gaps,flow_id有数据的记录太少,220+例,因此选择记录是否存在数据,即映射到01上。
-
alert.metadata.updated_at数据与alert.metadata.created_at数据重合,选择放弃。
-
dns.ra,dns.rcode,dns.rd,download_tries数据重合放弃
-
attack_connection.payload.data_hex,attack_connection.payload.length,attack_connection.payload.md5_hash,attack_connection.payload.sha512_hash,dns.grouped.A,dns.rrname,flow.start统计发现,数据有一定的互异性,部分数据处在只有一例的情况,但是仍存在200+数据聚集的情况,可以分成3-4类,单独的数据整合到一起,怀疑上述几例存在某种相互关系。
-
attack_connection.protocol,dns.flags,dns.qr,dns.tx_id,dns.version,download_count,fileinfo.gaps,fileinfo.state两种数据
-
connection.protocol,connection.transport,connection.type全空,删除
-
compCS,dns.type,duplicate,fileinfo.state三种数据
-
dest_port端口号,可以转成数字
-
dist,fileinfo.size,flow.bytes_toclient,flow.bytes_toserver,flow.pkts_toclient,flow.pkts_toserver转成数字,注意之前用-1代表None但是源数据存在-1,全部调整为-2