本文实现的小程序是我在学校里的一个毕业设计中实现的,程序不大,自己做完了之后感觉对于本科毕业设计来说是不是有点太简单了....明显代码量不是很多啊.....汗。
一下内容摘自毕业设计论文。
在本文实现的程序中,由于没有企业级的web日志或者搜索引擎中的海量URL访问日志,所以使用的是科研项目中用到的数据集。本文选择的是入侵检测中,用于训练入侵检测分类器的网络日志数据集——KDD Cup 99数据集。这个数据集中的记录包括多种广泛的网络环境下的模拟入侵,该数据集共有41个属性,包括34个连续属性和 7 个离散属性。每个样本是一条 TCP/IP连接记录,区分为五种类型:正常(Normal)及四种攻击类型(Probe、DoS、R2L、U2R)。整个数据集具有近500万条记录。在实际的项目中,若要训练入侵检测的分类器,往往需要对这个数据集中的各种入侵类型进行分类和计算,而以往的做法是使用UNIX Shell程序进行分析,速度往往会很慢,所以本文试图在分布式环境中实现对数据集的分类查找工作,从而大大提高以往科研计算中的效率。
public int run(String[] args) throws Exception
{
JobConf conf = new JobConf(getConf(), WordSearch.class);
conf.setJobName("wordsearch"); //set job name
conf.set("searchWord", args[2]); //send "searchWord" to system
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(Text.class);
conf.setMapperClass(Map.class);
conf.setCombinerClass(Reduce.class);
conf.setReducerClass(Reduce.class);
conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);