hadoop-运行WordCount实例

最新推荐文章于 2024-07-15 10:16:37 发布

RunningSunBoy

最新推荐文章于 2024-07-15 10:16:37 发布

阅读量669

点赞数

分类专栏： hadoop 文章标签： hadoop linux mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guoqingpei/article/details/45620109

版权

hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

运行Hadoop的第一个实例：WordCount

1.配置hadoop的运行环境见大数据管理系统开发环境搭建

2.运行hadoop系统（./start-all.sh），用jps查看所有的hadoop进程，应该有以下进程

namenode

secondary-namenode

datanode

以上三个节点保证了hadoop的hdfs正常运行：

namenode：数据的集中管理(hadoop hdfs是master/slave的架构)

secondary-namenode:提供namenode的备份(防止中心节点namenode的崩溃)

datanode:负责具体数据的存储和读写

注意：hdfs的文件系统和我们普通的文件系统的文件不一样，hdfs文件只能在hdfs文件系统中查看，在linux本机上查看会都是乱码

ResourceManager

NodeManager

以上两个节点保证了Map-Reduce的任务能够顺利运行

ResourceManager : 即JobTracker，负责mapred任务执行的跟踪和分配

NodeManager：即JobWorker,负责执行mapred任务

3.WordCount实例介绍

hadoop的WordCount实例是hadoop Map-Red运行的一个范例，常用来检测map-red开发环境是否搭建成功

WordCount顾名思义就是数单词个数，输入多个文件，每个文件都存放多行单词，wordCount输出所有文件中每个单词出现了多少次

4.运行WordCount- 第一个mapred任务

1）首先在本地创建文件，这两个文件就是mapred的输入文件

mkdir ~/input

echo "hello hadoop">>a

echo "hello world">>b

2)将创建的文件夹上传到hdfs系统中hadoop用户的根目录下

hdfs dfs -put ~/input /user/hadoop/ //注:hdfs默认是当前用户目录,与linux类似，不是根目录

3)执行mapRed任务：

bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar

input output

org.apache.hadoop.examples.WordCount指出jar包中运行哪个类

input是hdfs系统中输入文件夹，output是hdfs中当前用户的输出文件夹（没有的话会自动创建）

5.以上步骤完成后，可以看到hdfs的输出:

查看当前用户目录下，多了个output的文件夹，查看输出结果:

可见，hadoop和world出现了1次，hello出现了2次

运行完以上任务后，可以查看hadoop的运行状态：

在任意一台机器上，只要安装有浏览器，就可以查看hadoop的运行状态

8088端口：jobtracker，mapReduce任务的运行情况(hdfs上程序运行情况)

50070端口：hdfs的管理(文件系统的运行情况)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop-运行WordCount实例

运行Hadoop的第一个实例：WordCount 1.配置hadoop的运行环境见大数据管理系统开发环境搭建 2.运行hadoop系统（./start-all.sh），用jps查看所有的hadoop进程，应该有以下进程 namenode secondary-namenode datanode 以上三个节点保证了
复制链接

扫一扫

专栏目录

RunningSunBoy CSDN认证博客专家 CSDN认证企业博客

码龄13年

26: 原创

35万+: 周排名

186万+: 总排名

5万+: 访问

: 等级

658: 积分

4: 粉丝

8: 获赞

6: 评论

36: 收藏

私信

关注

热门文章

分类专栏

算法 3篇
递归 1篇
c 5篇
面向对象 3篇
mysql 2篇
hadoop 4篇
python 5篇
docker 1篇
前端 2篇
ubuntu
Linux 3篇

最新评论

python在windows下读写注册表
天中云雾: [code=python] import _winreg #Python 2.X import winreg #Python 3.X [/code]
python在windows下读写注册表
天中云雾: 大哥，这是内置模块！
python在windows下读写注册表
cherry-wang 回复绿叶清风: 我也遇到这个问题
python在windows下读写注册表
不忘初_心回复绿叶清风: 你解决了吗，我也遇到这个问题
python在windows下读写注册表
绿叶清风: 找不到模块，pip install _winreg 或 pip install winreg都找不到

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。