学习记录：Hadoop之WordCount运行

最新推荐文章于 2022-03-14 16:41:03 发布

yander2861

最新推荐文章于 2022-03-14 16:41:03 发布

阅读量476

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iboringyou/article/details/8793903

版权

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版"Hello World"，该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是：统计一系列文本文件中每个单词出现的次数，如下图所示。

┄┄┄┄┄┄┄┄┄分割线┄┄┄┄┄┄┄┄┄

1）创建本地示例文件

登录master服务器，在hadoop目录下创建文件夹"file"

创建两个文本文件file1.txt和file2.txt，file1.txt内容为"Hello World"，

file2.txt的内容为"Hello Hadoop"。

可以查看下文件内容:

在HDFS上创建文件夹

上传本地file中的文件到集群的input目录下

2）运行例子

在集群上运行wordcount

已经编译好的WordCount的Jar在"/home/ubuntu/hadoop"（此路径根据每个人会有所不同）下面，就是"hadoop-examples-1.0.4.jar"，所以在执行命令时记得把路径写全了，不然会提示找不到该Jar包。

还有需要注意的时，如果在集群上有了output文件夹，当运行的时候会报错。

MapReduce执行过程

Hadoop命令会启动一个JVM来运行这个MapReduce程序，并自动获得Hadoop的配置，同时把类的路径（及其依赖关系）加入到Hadoop的库中。以上就是Hadoop Job的运行记录，从这里可以看到，这个Job被赋予了一个ID号：job_201304061043_0002，而且得知输入文件有两个（Total input paths to process : 2），同时还可以了解map的输入输出记录（record数及字节数），以及reduce输入输出记录。比如说，在本例中，map的task数量是2个，reduce的task数量是1个。map的输入record数是2个等信息。

3）查看结果

查看结果输出内容

输入命令：bin/hadoop fs -ls output

这里我们可以知道生成了三个文件，我们的结果在"part-r-00000"中。

输入命令：bin/hadoop fs -cat output/aprt-r-00000

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习记录：Hadoop之WordCount运行

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版"Hello World"，该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是：统计一系列文本文件中每个单词出现的次数，如下图所示。 ┄┄┄┄┄┄┄┄┄分割线┄┄┄┄┄┄┄┄┄1）创建本地示例文件登录master服务器，在had
复制链接

扫一扫

专栏目录

博客等级

码龄13年

1
原创

0
点赞

0
收藏

0
粉丝

关注

私信

热门文章

分类专栏

学习笔记 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

EC2平台上Hadoop集群搭建

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。