Hadoop之词频统计

最新推荐文章于 2024-06-30 17:10:23 发布

浪灬迹-红尘少年

最新推荐文章于 2024-06-30 17:10:23 发布

阅读量1.6k

点赞数

分类专栏： Hadoop 文章标签：词频统计

本文链接：https://blog.csdn.net/qq_33706146/article/details/90518813

版权

本文介绍了使用Hadoop进行词频统计的详细步骤，包括MapReduce的编程思路，从创建Java工程、编写Map和Reduce阶段的代码，到Driver驱动程序的实现，最后展示了运行结果。

摘要由CSDN通过智能技术生成

MR编程思路
--------------------------------
0.词频统计：n个文件，每个文件有m行数据，每行数据由空格分割
如text1.txt
hello world
   how are you?
   ni hao
   hello tom
如text2.txt
zhang yuejiu
   hello lilei
   ni hao hanmeimei
   hello tom
求每个单词出现的次数。
前提条件：hadoop集群运行:start-dfs.sh和start-yarn.sh
1.创建Java工程，导jar包
2.编写Map阶段
构建Mapclass类
   /**
   * map阶段:<KEYIN, VALUEIN, KEYOUT, VALUEOUT> --> <k1, v1, k2, v2>
   * 分析：test1.txt
   *    hello world --><k1,v1>==<0,"hello world"> --><k2,v2>==<"hello",1>,<"world",1>
   *    how are you? --><k1,v1>==<11,"how are you?"> --><k2,v2>==<"how",1>,<"are",1>,<"you?",1>
   * ni hao --><k1,v1>==<23,"ni hao"> --><k2,v2>==<"ni",1>,<"hao",1>
   * hello tom --><k1,v1>==<29,"hello tom"> --><k2,v2>==<"hello",1>,<"tom",1>
   *
   * @author centos
   *
   */
   public class M