Hadoop小案例

最新推荐文章于 2022-10-24 15:42:40 发布

淹死的鱼pp

最新推荐文章于 2022-10-24 15:42:40 发布

阅读量3k

点赞数

分类专栏： hadoop 文章标签： hadoop mapreduce 大数据 hdfs shell

本文链接：https://blog.csdn.net/qq_34227896/article/details/77511060

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目的：本案列的目的是统计500w条数据被搜索使用的次数

由于数据包无法在这上传，所以数据无法给你们，你们可以自己搞一些数据自己学习学习!

1.根据命令 hadoop fs -put ./sogou.500w.utf8 / 把500w这个包移动到hdfs 根目录下，一般（/）表示

2.1 在shell命令中的运行格式：hadoop jar jar包包名.类名文件的路径
(首先你要把java代码打成jar包,当然还有一点文件的路径这需要一个不重复的路劲)，如：
hadoop jar abc.jar cn.xdl.test.SogouUID /count02
2.2 或者先在eclipse上运行,如下图

3.代码如下：

package cn.xdl.reduce;


import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


class SogouMap extends Mapper<Object, Text, Text, IntWritable> {
 //
public void map(
Object key,
Text value,
org.apache.hadoop.mapreduce.Mapper<Object, Text, Text, IntWritable>.Context context)
throws java.io.IOException, InterruptedException {
// 20111230133301 a5e535dc9cbadc510ee515982c817a0f 356期藏机图 3 3
// http://www.yibocai.com/ZMTM/201112/265336.html
String line = value.toString();
String[] ss = line.split("\t");
context.write(new Text(ss[1]), new IntWritable(1));


};


}


class SogouReduce extends Reducer<Text, IntWritable, Text, IntWritable> {


public void reduce(
Text key,
java.lang.Iterable<IntWritable> values,
org.apache.hadoop.mapreduce.Reducer<Text, IntWritable, Text, IntWritable>.Context context)
throws java.io.IOException, InterruptedException {
int sum = 0;
for(IntWritable count : values){
sum+=count.get();
}

context.write(key, new IntWritable(sum));
};
}


public class SogouUID {


/**
* @param args
*/
public static void main(String[] args) throws Exception {

String inpath = args[0];
String outpath = args[1];
       //创建作业实例
Job job = Job.getInstance();
job.setJobName(SogouUID.class.getName());
// 打jar包
job.setJarByClass(SogouUID.class);
// 设置处理Map/Reduce阶段的类
job.setMapperClass(SogouMap.class);
job.setReducerClass(SogouReduce.class);
//设置reduce的任务个数
job.setNumReduceTasks(3);
// 设置最终输出key/value的类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 设置输入/输出路径
FileInputFormat.addInputPath(job, new Path(inpath));
FileOutputFormat.setOutputPath(job, new Path(outpath));
// 提交作业
job.waitForCompletion(true);
}
}

4.查看运行后的情况，可使用命令Hadoop fs -cat /count02/path*