使用MapReduce程序对KDD Cup 99数据集进行信息检索(一)

本文介绍了一个使用MapReduce处理KDD Cup 99数据集的毕业设计项目,旨在提高入侵检测的计算效率。程序在Hadoop环境下运行,通过Map和Reduce类对数据进行分类查找。用户通过命令行传递搜索词,Map函数处理数据,Reduce函数进行结果整合。
摘要由CSDN通过智能技术生成

 本文实现的小程序是我在学校里的一个毕业设计中实现的,程序不大,自己做完了之后感觉对于本科毕业设计来说是不是有点太简单了....明显代码量不是很多啊.....汗。

一下内容摘自毕业设计论文。

 

在本文实现的程序中,由于没有企业级的web日志或者搜索引擎中的海量URL访问日志,所以使用的是科研项目中用到的数据集。本文选择的是入侵检测中,用于训练入侵检测分类器的网络日志数据集——KDD Cup 99数据集。这个数据集中的记录包括多种广泛的网络环境下的模拟入侵,该数据集共有41个属性,包括34个连续属性和 7 个离散属性。每个样本是一条 TCP/IP连接记录,区分为五种类型:正常(Normal)及四种攻击类型(ProbeDoSR2LU2R)。整个数据集具有近500万条记录。在实际的项目中,若要训练入侵检测的分类器,往往需要对这个数据集中的各种入侵类型进行分类和计算,而以往的做法是使用UNIX Shell程序进行分析,速度往往会很慢,所以本文试图在分布式环境中实现对数据集的分类查找工作,从而大大提高以往科研计算中的效率。

 

public int run(String[] args) throws Exception

       {

            JobConf conf = new JobConf(getConf(), WordSearch.class);

           conf.setJobName("wordsearch");     //set job name

            conf.set("searchWord", args[2]);         //send "searchWord" to system

            conf.setOutputKeyClass(Text.class);

            conf.setOutputValueClass(Text.class);

            conf.setMapperClass(Map.class);

            conf.setCombinerClass(Reduce.class);

            conf.setReducerClass(Reduce.class);

            conf.setInputFormat(TextInputFormat.class);

            conf.setOutputFormat(TextOutputFormat.class);

           

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值