Hadoop小案例

 

目的:本案列的目的是统计500w条数据被搜索使用的次数

 

由于数据包无法在这上传,所以数据无法给你们,你们可以自己搞一些数据自己学习学习!

 

 

1.根据命令 hadoop fs -put ./sogou.500w.utf8 / 把500w这个包移动到hdfs 根目录下,一般(/)表示

 

 

2.

 

 

2.1 在shell命令中的运行格式:hadoop jar jar包  包名.类名  文件的路径
 (首先你要把java代码打成jar包,当然还有一点文件的路径这需要一个不重复的路劲),如:
hadoop jar  abc.jar  cn.xdl.test.SogouUID  /count02 
2.2 或者先在eclipse上运行,如下图

 

 

3.代码如下:

package cn.xdl.reduce;


import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


class SogouMap extends Mapper<Object, Text, Text, IntWritable> {
 //
public void map(
Object key,
Text value,
org.apache.hadoop.mapreduce.Mapper<Object, Text, Text, IntWritable>.Context context)
throws java.io.IOException, InterruptedException {
// 20111230133301 a5e535dc9cbadc510ee515982c817a0f 356期藏机图 3 3
// http://www.yibocai.com/ZMTM/201112/265336.html
String line = value.toString();
String[] ss = line.split("\t");
context.write(new Text(ss[1]), new IntWritable(1));


};


}


class SogouReduce extends Reducer<Text, IntWritable, Text, IntWritable> {


public void reduce(
Text key,
java.lang.Iterable<IntWritable> values,
org.apache.hadoop.mapreduce.Reducer<Text, IntWritable, Text, IntWritable>.Context context)
throws java.io.IOException, InterruptedException {
int sum = 0;
for(IntWritable count : values){
sum+=count.get();
}

context.write(key, new IntWritable(sum));
};
}


public class SogouUID {


/**
* @param args
*/
public static void main(String[] args) throws Exception {

String inpath = args[0];
String outpath = args[1];
       //创建作业实例
Job job = Job.getInstance();
job.setJobName(SogouUID.class.getName());
// 打jar包
job.setJarByClass(SogouUID.class);
// 设置处理Map/Reduce阶段的类
job.setMapperClass(SogouMap.class);
job.setReducerClass(SogouReduce.class);
//设置reduce的任务个数
job.setNumReduceTasks(3);
// 设置最终输出key/value的类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 设置输入/输出路径
FileInputFormat.addInputPath(job, new Path(inpath));
FileOutputFormat.setOutputPath(job, new Path(outpath));
// 提交作业
job.waitForCompletion(true);
}
}

4.查看运行后的情况,可使用命令Hadoop fs -cat /count02/path*

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值