第二周毕业设计任务书(3.8--3.15)

1、周计划表

时间计划进度是否完成
3.8--3.15了解KDDUP99数据集,以及所包含的属性,数据预处理思想 
3.16--3.23 代码实现数据预处理 
3.24--3.30 与算法的融合 
等等  

1、本周内容:

  1)KDDCUP99数据集

   一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。

  KDDCUP99数据集中每个连接(*)用41个特征来描述:

     1. TCP连接基本特征(共9种)

     2. TCP连接的内容特征(共13种)

     3. 基于时间的网络流量统计特征 (共9种,23~31)

     4. 基于主机的网络流量统计特征 (共10种,32~41)

    (具体的特征暂略)


 2)数据的预处理

    (1) protocol type: 1-icmp; 2-tcp; 3-udp; 4-others.  

    (2) service: domain-u 1;  ecr_i 2;  eco-i 3;  finger 4;  ftp-data 5;  ftp 6;  http 7;  hostnames 8; imap4  9;   login 10;  mtp 11;  netstat 12;  other 13;  private 14;  smtp 15;  systat 16;  telnet 17; time 18; uucp 19;   其他服务 20;

    (3) flag: 1-REJ; 2-RSTO; 3-RSTR; 4-S0; 5-S3; 6-SF; 7-SH; 8-OTHERS;

    (4)其他数据归一化处理:x∈[xmin,xmax], t=(x-xmin)/(xmax-xmin) ∈[0,1].

 

 3)相应的算法。

      设为一个待分类项,而每个a为x的一个特征属性。有类别集合。(摘自来自第一次任务书)

  1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

      2、统计得到在各类别下各个特征属性的条件概率估计。即

      3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

     

      因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

     

(计算,如果,则。 关键就是如何计算第中各个条件概率——摘自第一次计划书)

 

4.你本周参考资料。

http://blog.sina.com.cn/s/blog_4ae073680101g1fh.html

http://blog.csdn.net/com_stu_zhang/article/details/6987632

5.你本周实现的代码及截图。

暂无

6.你本周的体会。

KDDCUP99数据具有诸多属性,数据预处理可以简化许多冗余数据,并且通过设定关键值来处理。30万的数据量可能对之后的实验运行会带来一些挑战,不过数据预处理后的样本训练就是机器工作,数据预处理对之后的精确度有很大影响,所以要重视。

 

转载于:https://www.cnblogs.com/net1313whc/p/6560924.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值