tensorflow学习笔记(五)

数据处理

  • date,由于数据集中在九月5日,只有950例在6日,相对于15000+的数据来说,容量太小,因此选择放弃记录日期,只记录时分秒。

  • id:统计发现,几乎每一例记录都存在一个唯一的id,应该属于随机生成的部分,因此选择放弃

  • _indexalert.action alert.categoryalert.gidalert.signaturealert.severityalert.signature_idapp_protodest_ipevent_typeeventidfileinfo.magicfileinfo.magicfileinfo.md5fileinfo.stategeoip.as_orggeoip.asn经统计发现,数据只有少量类别,因此采取映射到独热编码

  • alert.metadata.created_atalert.revdestfiledns.answersdns.iddns.rrtypedurationfileinfo.filenamefileinfo.gapsflow_id有数据的记录太少,220+例,因此选择记录是否存在数据,即映射到01上。

  • alert.metadata.updated_at数据与alert.metadata.created_at数据重合,选择放弃。

  • dns.radns.rcodedns.rddownload_tries数据重合放弃

  • attack_connection.payload.data_hexattack_connection.payload.lengthattack_connection.payload.md5_hashattack_connection.payload.sha512_hashdns.grouped.Adns.rrnameflow.start统计发现,数据有一定的互异性,部分数据处在只有一例的情况,但是仍存在200+数据聚集的情况,可以分成3-4类,单独的数据整合到一起,怀疑上述几例存在某种相互关系。

  • attack_connection.protocoldns.flagsdns.qrdns.tx_iddns.versiondownload_countfileinfo.gapsfileinfo.state两种数据

  • connection.protocolconnection.transportconnection.type全空,删除

  • compCSdns.typeduplicatefileinfo.state三种数据

  • dest_port端口号,可以转成数字

  • distfileinfo.sizeflow.bytes_toclientflow.bytes_toserverflow.pkts_toclientflow.pkts_toserver转成数字,注意之前用-1代表None但是源数据存在-1,全部调整为-2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值