hadoop学习笔记之hadoop集群安装配置

安装

从hadoop官网下载hadoop安装包,解压到安装目录,安装目录最好在用户目录下,因为在用户目录下当前用户拥有直接读写权限,不用sudo也不会报权限错误,而后配置环境变量
下载地址:http://hadoop.apache.org/releases.html
官方安装文档:
http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/ClusterSetup.html

非安全模式配置

1.配置文件说明

hadoop配置文件在etc/hadoop/目录下,包含两种类型

默认配置文件:
core-default.xml, hdfs-default.xml, yarn-default.xml and mapred-default.xml

自定义配置文件:
core-site.xml, hdfs-site.xml,yarn-site.xml and mapred-site.xml

自定义配置文件优先级高于默认配置文件,直接配置自定义文件就可以

2.守护进程说明

这里写图片描述
上图对应守护进程配置环境变量,根据需要配置,环境变量配置文件(etc/hadoop目录下):hadoop-env.sh mapred-env.sh yarn-env.sh

JAVA_HOME:jdk安装位置(必要最简化配置)
HADOOP_PID_DIR:Hadoop进程id存放文件目录,可自定义
HADOOP_LOG_DIR:Hadoop日志存放目录,可自定义

export JAVA_HOME=/home/user/hadoop/jdk1.8.0_121
# Where log files are stored.  $HADOOP_HOME/logs by default.
export HADOOP_PID_DIR=/home/user/hadoop/hadoop-2.7.3/logs
export HADOOP_LOG_DIR=/home/user/hadoop/hadoop-2.7.3/logs

此外在log4j.properties中也有日志存储目录,不知道两者是否关联,如果上述日志存储目录配置不可用,可在log4j中尝试配置

配置site文件

1.core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/user/hadoop/hadoop-2.7.3/tmp</value>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
</configuration>

2.hdfs-site.xml

    <property> 
    <name>dfs.namenode.name.dir</name> 
    <value>/home/user/hadoop-2.7.3/dfs/name</value> 
    </property>
    <property> 
    <name>dfs.datanode.data.dir</name> 
    <value>/home/user/hadoop-2.7.3/dfs/data</value> 
    </property> 
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
</configuration>

3.yarn-site.xml

master为主机名,需要在/etc/hostname和/etc/hosts中配置

<configuration>
    <property>
    <description>The hostname of the RM.</description>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

4.mapred-site.xml

<configuration> 
  <property> 
  <name>mapreduce.framework.name</name> 
  <value>Yarn</value> 
  </property> 
 </configuration>

启动服务

1.初次启动前初始化

hdfs namenode -format <cluster_name>

2.启动服务

start-all.sh

3.测试安装是否成功

这里写图片描述

访问http://localhost:50070 http://localhost:8088
若出现管理界面则成功

分布式集群配置

1.在hosts文件中添加集群机器hostname和ip对应关系及配置slaves文件

192.168.241.20 master
192.168.241.30 node

在hadoop配置文件目录(${HADOOP_HOME}/etc/hadoop)下配置slaves文件,添加两者hostname

master
node

2.复制虚拟机系统,并修改网络配置和hostname

将虚拟机系统文件夹复制一份到文件夹下并用WMware WorkStation打开,并配置网络,ip设置为192.168.241.30
参考:http://blog.csdn.net/flushest/article/details/58702349中网络配置这一块内容

网络配置之后需要测试一下网络是否畅通

sudo gedit /etc/hostname

将hostname修改为node

3.在master主机上启动hadoop服务

start-all.sh #已经过时,不过还可以用
或者
start-hdfs.sh & start-yarn.sh

4.测试集群是否部署成功

在master主机上,会启动如下进程:
这里写图片描述
在node主机上,只会启动NameNode、JPS、DataNode三个进程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值