MapRudce 单词统计 WordCount 案例代码

李昊哲小课

已于 2024-06-23 15:27:48 修改

阅读量8.1w

点赞数

文章标签： hadoop java 大数据 mapreduce

于 2023-04-12 16:00:57 首次发布

本文链接：https://blog.csdn.net/qq_24330181/article/details/130109289

版权

MapRudce 单词统计 WordCount 案例代码

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>cn.lhz</groupId>
  <artifactId>hadoop</artifactId>
  <version>1.0.0</version>

  <properties>
    <jdk.version>8</jdk.version>
    <!-- 公共配置 -->
    <maven.compiler.source>8</maven.compiler.source>
    <maven.compiler.target>8</maven.compiler.target>
    <maven.compiler.compilerVersion>8</maven.compiler.compilerVersion>
    <maven.compiler.encoding>utf-8</maven.compiler.encoding>
    <project.build.sourceEncoding>utf-8</project.build.sourceEncoding>
    <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
    <maven.test.failure.ignore>true</maven.test.failure.ignore>
    <maven.test.skip>true</maven.test.skip>

    <junit.version>5.10.2</junit.version>
    <lombok.version>1.18.32</lombok.version>
    <commons-lang3.version>3.14.0</commons-lang3.version>
    <commons-io.version>2.16.1</commons-io.version>
    <jackson.version>2.17.1</jackson.version>
    <slf4j.version>2.0.13</slf4j.version>
    <hadoop.version>3.3.6</hadoop.version>
    <guava.version>33.0.0-jre</guava.version>
    <mysql.version>8.4.0</mysql.version>
    <protobuf.version>4.27.1</protobuf.version>
  </properties>

  <dependencies>
    <dependency>
      <groupId>org.junit.jupiter</groupId>
      <artifactId>junit-jupiter-engine</artifactId>
      <version>${junit.version}</version>
      <scope>test</scope>
    </dependency>
    <dependency>
      <groupId>org.junit.jupiter</groupId>
      <artifactId>junit-jupiter-api</artifactId>
      <version>${junit.version}</version>
      <scope>test</scope>
    </dependency>
    <dependency>
      <groupId>org.projectlombok</groupId>
      <artifactId>lombok</artifactId>
      <version>${lombok.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.commons</groupId>
      <artifactId>commons-lang3</artifactId>
      <version>${commons-lang3.version}</version>
    </dependency>
    <dependency>
      <groupId>commons-io</groupId>
      <artifactId>commons-io</artifactId>
      <version>${commons-io.version}</version>
    </dependency>
    <!--jackson-->
    <dependency>
      <groupId>com.fasterxml.jackson.core</groupId>
      <artifactId>jackson-core</artifactId>
      <version>${jackson.version}</version>
    </dependency>
    <dependency>
      <groupId>com.fasterxml.jackson.core</groupId>
      <artifactId>jackson-annotations</artifactId>
      <version>${jackson.version}</version>
    </dependency>
    <dependency>
      <groupId>com.fasterxml.jackson.core</groupId>
      <artifactId>jackson-databind</artifactId>
      <version>${jackson.version}</version>
    </dependency>
    <dependency>
      <groupId>com.fasterxml.jackson.datatype</groupId>
      <artifactId>jackson-datatype-jsr310</artifactId>
      <version>${jackson.version}</version>
    </dependency>
    <dependency>
      <groupId>org.slf4j</groupId>
      <artifactId>slf4j-api</artifactId>
      <version>${slf4j.version}</version>
    </dependency>
    <dependency>
      <groupId>org.slf4j</groupId>
      <artifactId>slf4j-simple</artifactId>
      <version>${slf4j.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>com.google.guava</groupId>
      <artifactId>guava</artifactId>
      <version>${guava.version}</version>
    </dependency>
    <dependency>
      <groupId>com.mysql</groupId>
      <artifactId>mysql-connector-j</artifactId>
      <version>${mysql.version}</version>
    </dependency>
    <dependency>
      <groupId>com.google.protobuf</groupId>
      <artifactId>protobuf-java</artifactId>
      <version>${protobuf.version}</version>
    </dependency>
  </dependencies>
  <build>
    <finalName>${artifactId}</finalName>
    <!--<outputDirectory>../package</outputDirectory>-->
    <plugins>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-compiler-plugin</artifactId>
        <version>3.13.0</version>
        <configuration>
          <!-- 设置编译字符编码 -->
          <encoding>utf-8</encoding>
          <!-- 设置编译jdk版本 -->
          <source>${jdk.version}</source>
          <target>${jdk.version}</target>
        </configuration>
      </plugin>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-clean-plugin</artifactId>
        <version>3.3.2</version>
      </plugin>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-resources-plugin</artifactId>
        <version>3.3.1</version>
      </plugin>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-jar-plugin</artifactId>
        <version>3.4.1</version>
      </plugin>
      <!-- 编译级别 -->
      <!-- 打包的时候跳过测试junit begin -->
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-surefire-plugin</artifactId>
        <version>3.2.5</version>
        <configuration>
          <skip>true</skip>
        </configuration>
      </plugin>
    </plugins>
  </build>
</project>

map类 WordCountMapper

package cn.lhz.hadoop.mapreduce.wordcount03;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.StringTokenizer;

/**
 * map 阶段
 * Mapper<LongWritable, Text, Text, IntWritable>
 * 前两个 LongWritable,Text 为 map 输入数据的类型，LongWritable 文本文件偏移量，Text 是读取一行的内容
 * 后两个 Text,IntWritable 为 map 输出数据的类型 ，map输出 是一个 key value 数据结构， Text 是 key 的数据类型，IntWritable 是 value 的数据类型
 *
 * @author 李昊哲
 * @version 1.0.0
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
  // 定义map输出的value
  private final static IntWritable one = new IntWritable(1);

  // 定义map输出的key
  private final Text word = new Text();

  /**
   * @param key     map输入偏移量
   * @param value   map输入的内容
   * @param context Mapper.Context 可以利用该对象做 map 的输出操作
   * @throws IOException          IOException
   * @throws InterruptedException InterruptedException
   */
  @Override
  protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
    // 将输入的内容转为 java 字符串
    String line = value.toString();
    // 默认分隔为 空格 \t \n \r 可以利用构造方法传入自定义分隔符
    StringTokenizer itr = new StringTokenizer(line);
    while (itr.hasMoreTokens()) {
      // 获取每一行中的每一个单词
      String string = itr.nextToken();
      // 封装 map 阶段输出 key
      word.set(string);
      // 将读取内容安需求输（map阶段输出）
      context.write(word, one);
    }
  }
}

reduce类 WordCountReduce

package cn.lhz.hadoop.mapreduce.wordcount03;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * reduce 阶段
 * Reduce<Text, IntWritable,Text,IntWritable> 中四个泛型 两个为一组
 * 前两个 LongWritable,Text 为 map 输出 reduce 输入 数据的类型，map 输出 reduce 输入 是一个 key value 数据结构， Text 是 key 的数据类型，IntWritable 是 value 的数据类型
 * 后两个 Text,IntWritable 为 reduce 输出数据的类型 ，reduce 输出 是一个 key value 数据结构， Text 是 key 的数据类型，IntWritable 是 value 的数据类型
 *
 * @author 李昊哲
 * @version 1.0.0
 */
public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
  // 定义 reduce 输出 value
  private IntWritable result = new IntWritable();

  @Override
  protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
    // 单词数量累加的和
    int sum = 0;
    // 遍历迭代器
    for (IntWritable value : values) {
      // 单词标记累加得到单词数量
      sum += value.get();
    }
    // 封装 reduce 输出 value
    result.set(sum);
    // reduce 输出
    context.write(key, result);
  }
}

驱动类 WordCountDriver

package cn.lhz.hadoop.mapreduce.wordcount03;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hdfs.DistributedFileSystem;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;


/**
 * 本地提交 mapreduce 任务到 集群
 * 1、打包项目
 * 2、重新编写代码 添加 本地 jar 文件路径 job.setJar(本地jar文件路径)
 * 3、本地提交
 * 服务器提交 mapreduce 任务到 集群
 * 1、打包项目 注意：代码中不允许出现 job.setJar(本地jar文件路径)
 * 2、上传 jar文件到集群
 * 3、提交 hadoop jar hadoop.jar cn.lhz.hadoop.mapreduce.wordcount03.WordCount
 *
 * @author 李昊哲
 * @version 1.0.0
 */
public class WordCount {

  public static void main(String[] args) throws Exception {
    // 设置环境变量 hadoop 用户名 为 root
    System.setProperty("HADOOP_USER_NAME", "root");

    // 参数配置对象
    Configuration conf = new Configuration();

    // 跨平台提交
    conf.set("mapreduce.app-submission.cross-platform", "true");

    // 本地运行
    // conf.set("mapreduce.framework.name", "local");

    // 设置默认文件系统为 本地文件系统
    // conf.set("fs.defaultFS", "file:///");

    // 声明Job对象 就是一个应用
    Job job = Job.getInstance(conf, "word count");

    // 本地提交启用该行
    // job.setJar("F:\\新疆大学\\code\\bigdata2024\\bigdata\\hadoop\\target\\hadoop.jar");

    // 指定当前Job的驱动类
    job.setJarByClass(WordCount.class);

    // 指定当前Job的 Mapper
    job.setMapperClass(WordCountMapper.class);
    // 指定当前Job的 Combiner 注意：一定不能影响最终计算结果 否则 不使用
    job.setCombinerClass(WordCountReduce.class);
    // 指定当前Job的 Reducer
    job.setReducerClass(WordCountReduce.class);

    // 设置 map 输出 key 的数据类型
    job.setMapOutputValueClass(Text.class);
    // 设置 map 输出 value 的数据类型
    job.setMapOutputValueClass(IntWritable.class);
    // 设置 reduce 输出 key 的数据类型
    job.setOutputKeyClass(Text.class);
    // 设置 reduce 输出 value 的数据类型
    job.setOutputValueClass(IntWritable.class);
    // 定义 map 输入的路径 注意：该路径默认为hdfs路径
    FileInputFormat.addInputPath(job, new Path("/WordCount/input/wcdata.txt"));
    // 定义 reduce 输出数据持久化的路径 注意：该路径默认为hdfs路径
    Path dst = new Path("/WordCount/result");

//    FileSystem fs = FileSystem.get(conf);
//    if (fs.exists(dst)) {
//      fs.delete(dst, true);
//    }

    DistributedFileSystem dfs = new DistributedFileSystem();
    String nameService = conf.get("dfs.nameservices");
    String hdfsRPCUrl = "hdfs://" + nameService + ":" + 8020;
    dfs.initialize(URI.create(hdfsRPCUrl), conf);
    if (dfs.exists(dst)) {
      dfs.delete(dst, true);
    }
    FileOutputFormat.setOutputPath(job, dst);
    // 提交 job
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

李昊哲小课

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
MapRudce 单词统计 WordCount 案例代码

MapRudce 单词统计 WordCount 案例代码pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <
复制链接

扫一扫