Hadoop 2.7版本集群环境搭建实例

最新推荐文章于 2024-06-22 14:20:43 发布

Running07

最新推荐文章于 2024-06-22 14:20:43 发布

阅读量2.3w

点赞数 1

分类专栏：大数据生态文章标签： hadoop hadoop搭建 YARN hadoop 2.7搭建 hadoop 部署

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hrn1216/article/details/51613538

版权

本文提供了一步一步的指导，详细介绍了如何在Linux环境下搭建Hadoop 2.7版本的集群，涵盖了从知识准备、环境配置到启动集群、运行MapReduce任务的全过程。主要内容包括Hadoop的组成部分、YARN框架、集群规划以及相关配置文件的修改。通过本文，读者可以了解集群搭建的基础知识，并亲手实践。

摘要由CSDN通过智能技术生成

1.知识准备

1.1 Hadoop 简介

Hadoop 是开源的、可扩展的、高可用的分布式计算框架。在多数场景下，它是处理大数据问题的利器。

它包括几个部分：① Hadoop common：支持hadoop的公共工具。

② HDFS:支持高吞吐量的分布式文件系统。

③ YARN:作业调度，集群资源管理的框架。

④ Hadoop MapReduce:基于YARN的，大规模数据并行处理的核心框架。

1.2 Hadoop 2.7.2 简介

与上一代hadoop相比，新一代的hadoop有了新的框架 ---- YARN，它取代了以前 JobTracker，TaskTracker。

引入了ResourceManager等概念。具体简介可参考：Hadoop YARN 简介

本次集群搭建针对的是 2.7.2 的版本。

1.3 基础概念简介

HDFS运行时相关的守护进程是：NameNode、SecondaryNameNode、DataNode。

NameNode：维护着文件系统树，以及文件系统树中所有的文件、文件夹的元信息。

SecondaryNameNode：对NameNode记录的元信息根据具体配置进行一个备份。

DataNode：根据NameNode的调度来存储、检索所存储的块（block）的信息，并定期与NameNode通信维护

相应的元信息。

YARN运行时相关的守护进程是：ResourceManager、NodeManager、WebAppProxy。

MapReduce 任务使用的话，可以启动 MapReduce Job History Server的进程，可供web界面查看。

注意，不能为了搭建集群而搭建集群，先搞清楚每个部分的作用，合理规划，才能真正搭建一个有用的集群。

此部分是一个简介，你可以通过google或访问hadoop官网了解具体的概念后，再进行集群搭建的操作。

2.环境准备

本次集群搭建所使用的linux系统版本是：CentOS release 6.5 (Final)。

采用三台机器（当然，你可以使用虚拟机），ip分别为 172.18.1.127,172.18.1.158,172.18.1.49

2.1 必备环境与准备工作

① JDK版本： oracle 1.6.0_20 以上，本次使用的是 1.7.0_79。

② Hadoop 软件包下载：Hadoop软件包下载

③ 查看每台机器的hostname。如需修改，请参考：

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。