Hadoop 2.7版本 集群环境搭建实例

本文提供了一步一步的指导,详细介绍了如何在Linux环境下搭建Hadoop 2.7版本的集群,涵盖了从知识准备、环境配置到启动集群、运行MapReduce任务的全过程。主要内容包括Hadoop的组成部分、YARN框架、集群规划以及相关配置文件的修改。通过本文,读者可以了解集群搭建的基础知识,并亲手实践。
摘要由CSDN通过智能技术生成

1.知识准备

 1.1  Hadoop 简介

            Hadoop 是开源的、可扩展的、高可用的分布式计算框架。在多数场景下,它是处理大数据问题的利器。

它包括几个部分:① Hadoop common:支持hadoop的公共工具。

                             ② HDFS:支持高吞吐量的分布式文件系统。

                             ③ YARN:作业调度,集群资源管理的框架。

                             ④ Hadoop MapReduce:基于YARN的,大规模数据并行处理的核心框架。

1.2 Hadoop 2.7.2 简介

       与上一代hadoop相比,新一代的hadoop有了新的框架 ---- YARN,它取代了以前 JobTracker,TaskTracker。

引入了ResourceManager等概念。具体简介可参考:Hadoop YARN 简介

            本次集群搭建针对的是 2.7.2 的版本。

1.3 基础概念简介

     HDFS运行时相关的守护进程是:NameNode、SecondaryNameNode、DataNode。

      NameNode:维护着文件系统树,以及文件系统树中所有的文件、文件夹的元信息。

      SecondaryNameNode:对NameNode记录的元信息根据具体配置进行一个备份。

      DataNode:根据NameNode的调度来存储、检索所存储的块(block)的信息,并定期与NameNode通信维护

                          相应的元信息。


       YARN运行时相关的守护进程是:ResourceManager、NodeManager、WebAppProxy。

       

       MapReduce 任务使用的话,可以启动 MapReduce Job History Server的进程,可供web界面查看。

     注意,不能为了搭建集群而搭建集群,先搞清楚每个部分的作用,合理规划,才能真正搭建一个有用的集群。


     此部分是一个简介,你可以通过google或访问hadoop官网了解具体的概念后,再进行集群搭建的操作。


2.环境准备


     本次集群搭建所使用的linux系统版本是:CentOS release 6.5 (Final)。


     采用三台机器(当然,你可以使用虚拟机),ip分别为 172.18.1.127,172.18.1.158,172.18.1.49


 2.1 必备环境与准备工作

     ① JDK版本: oracle 1.6.0_20 以上,本次使用的是 1.7.0_79。


      ② Hadoop 软件包下载:Hadoop软件包下载


      ③ 查看每台机器的hostname。如需修改,请参考:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值