Hadoop 2.2.0 (YARN)搭建笔记

最近工作需要,摸索着搭建了Hadoop 2.2.0集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。1. 系统环境查看系统版本:uname -aLinux ** 2.6.32_1-7-0-0 #1 SMP *** x86_64 x86_64 x86_64 GNU/Linux查看gcc版本:gcc --versiongcc (GCC) 3.
摘要由CSDN通过智能技术生成

        最近工作需要,摸索着搭建了Hadoop 2.2.0(YARN)集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。

        本篇文章不涉及hadoop2.2的编译,编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明,本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。

        由于spark的兼容问题,我们后面使用了Hadoop 2.0.5-alpha的版本(2.2.0是稳定版本),2.0.5的配置有一点细微的差别,文中有特别提示

1. 简介

     【本节摘自http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

     Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。

  对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。

  从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统MapReduce在集群上实现了分布式计算任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。


2. 系统环境

系统版本

CentOS 6.4  64bit
uname -a
Linux ** 2.6.32_1-7-0-0 #1 SMP *** x86_64 x86_64 x86_64 GNU/Linux

JAVA环境

安装Java 1.6
将jdk解压到local目录下
添加JAVA_HOME环境变量到.bashrc文件中

export JAVA_HOME="/home/<hostname>/local/jdk1.6.0_45/"
export JRE_HOME="/home/<hostname>/local/jdk1.6.0_45/jre/"
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

HADOOP解压hadoop-2.2.0-bin_64.tar.gz(这个包是我在CentOS6.4 64bit的环境下编译得到的) 到用户根目录

export HADOOP_HOME=/home/<hostname>/hadoop-2.2.0
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

测试本地模式

hadoop默认情况下配置为本地模式,所以解压后不修改任何配置,可以执行本地测试
// 创建本地目录
mkdir input 
// 填充数据
cp conf/*.xml input 
// 执行hadoop
bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 
// 查看结果
cat output/*

3. 网络环境

由于前期只是测试环境和配置,所以简单的使用两个节点:
master机器,充当namenode & datanode
slave机器,充当datanode

设置hostname
HDFS用hostname而不是IP来相互之间进行通信,hadoop会反向解析hostname,即使是用了IP,也会使用hostname 来启动TaskTracker,所以 所有配置文件只能用hostname,不能用IP(满满的都是泪)。我们给两个机器分别设置如下:

机器 IP HOSTNAME 角色
master 192.168.216.135 master namenode, datanode
slave 192.168.216.136 slave1 datanode

临时更改hostname的命令是(root权限)
hostname <new_name>
永久更改需要修改配置文件/etc/sysconfig/network
HOSTNAME=<new_name>

修改hosts文件

设置/etc/hosts文件(每台机器上都要设置),添加如下内容
192.168.216.135 master
192.168.216.136 slave1
na
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值