指导手册04:运行MapReduce
Part 1:运行单个MapReduce任务
情景描述:
本次任务要求对HDFS目录中的数据文件/user/root/email_log.txt进行计算处理,统计出第个用户的登录次数。
情景分析:统计出每个用户登录次数,等同于求出每个email出现的次数,可以进一步抽象为统计每个单司出现的频次。在Hadoop官方提供的示例包中,正好有进行记频统计的模块。
1.Hadoop官方的示例程序包
在集群服务器的本地目录”$HADOOP_HOME/share/hadoop/mapreduce/中可发现示例程序包hadoop-mapreduce-examples-2.6.4.jar
模块名称 | 内容 |
---|---|
multifilewc | 统计多个文件中单词的数量。 |
pi | 应用quasi-Monte Carlo 算法来估算圆周率π的值。 |
randomtextwriter | 在每个数据节点随机生成1个10GB的文本文件。 |
wordcount | 对输入文件中的单词进行频数统计。 |
word |