MR编程思路
--------------------------------
0.词频统计:n个文件,每个文件有m行数据,每行数据由空格分割
如text1.txt
hello world
how are you?
ni hao
hello tom
如text2.txt
zhang yuejiu
hello lilei
ni hao hanmeimei
hello tom
求每个单词出现的次数。
前提条件:hadoop集群运行:start-dfs.sh和start-yarn.sh
1.创建Java工程,导jar包
2.编写Map阶段
构建Mapclass类
/**
* map阶段:<KEYIN, VALUEIN, KEYOUT, VALUEOUT> --> <k1, v1, k2, v2>
* 分析:test1.txt
* hello world --><k1,v1>==<0,"hello world"> --><k2,v2>==<"hello",1>,<"world",1>
* how are you? --><k1,v1>==<11,"how are you?"> --><k2,v2>==<"how",1>,<"are",1>,<"you?",1>
* ni hao --><k1,v1>==<23,"ni hao"> --><k2,v2>==<"ni",1>,<"hao",1>
* hello tom --><k1,v1>==<29,"hello tom"> --><k2,v2>==<"hello",1>,<"tom",1>
*
* @author centos
*
*/
public class M
Hadoop之词频统计
最新推荐文章于 2024-06-30 17:10:23 发布
本文介绍了使用Hadoop进行词频统计的详细步骤,包括MapReduce的编程思路,从创建Java工程、编写Map和Reduce阶段的代码,到Driver驱动程序的实现,最后展示了运行结果。
摘要由CSDN通过智能技术生成