MapReduce编写实现wordcount词频统计

最新推荐文章于 2024-05-11 19:27:04 发布

Running-小猛

最新推荐文章于 2024-05-11 19:27:04 发布

阅读量4k

点赞数 2

分类专栏：大数据学习笔记文章标签： WordCount MapReduce

本文链接：https://blog.csdn.net/leying521/article/details/88785591

版权

首先编写WordCountDriver：

package com.jym.hadoop.mr.demo;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
* 这个程序相当于一个yarn集群的客户端，
* 需要在此封装我们的mr程序的相关运行参数，指定jar包,
* 最后提交给yarn
* */
public class WordcountDriver
{
   public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException
   {
       Configuration conf=new Configuration();

       /*其实如果在本地运行MR程序其实不用配置下面的代码程序，在MR默认下就是本地运行*/
       /**下面这段代码配置的是在本地模式下运行MR程序*/
       /**是否运行为本地模式，就是看这个参数值是否为local，默认就是local；*/
       //conf.set("mapreduce.framework.name", "local"); //在本地运行MR程序
       //本地模式运行MR程序时，输入输出的数据可以在本地，也可以在hdfs上
       //到底在哪里，就看以下两行配置用哪一行了，默认是“file:///”
       /**conf.set("fs.defaultFS", "hdfs://hadoop1:9000");*/ //使用的是HDFS系统
       //conf.set("fs.defaultFS", "file:///"); //使用的是本地Windows磁盘


       /**运行集群模式，就是把程序提交到yarn中去运行
       * 要想运行为集群模式，以下3个参数要指定为集群上的值
       * */<

最低0.47元/天解锁文章

Running-小猛

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
MapReduce编写实现wordcount词频统计

首先编写WordCountDriver： package com.jym.hadoop.mr.demo; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.ha...
复制链接

扫一扫