Hadoop集群安装
1.配置服务器
1个主节点:admin3(192.168.213.3),2个(从)子节点,admin4(192.168.213.4),admin5(192.168.213.5)
配置主节点名(192.168.213.3)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=admin3
配置两台子节点名(192.168.213.4)和(192.168.213.5)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=admin4
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=admin5
配置hosts
打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。
vi /etc/hosts
192.168.213.3 admin3
192.168.213.4 admin4
192.168.213.5 admin5
保存之后,将主节点的hosts分别拷贝到其他两个子节点
scp /etc/hosts root@192.168.213.4:/etc/
scp /etc/hosts root@192.168.213.5:/etc/
然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostname hostname
例如:master上执行 /bin/hostname master,使之生效。
2. 配置ssh无密码访问
生成公钥密钥对
在每个节点上分别执行:
ssh-keygen -t rsa
一直按回车直到生成结束
执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件
id_rsa (私钥)和 id_rsa.pub(公钥)
在主节点上执行:
cp id_rsa.pub authorized_keys //将自己的公钥合并到authorized_keys文件中去。
将子节点的公钥拷贝到主节点并添加进authorized_
将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:
scp ~/.ssh/ id_rsa.pub root@admin3:/~/.ssh/id_rsa_admin4.pub //子节点将公钥给主节点
scp ~/.ssh/ id_rsa.pub root@admin3:/~/.ssh/id_rsa_admin5.pub
然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去
主节点上执行:
cat id_rsa_admin4.pub>>authorized_keys //主节点将各子节点公钥写到authorized_keys中
cat id_rsa_admin5.pub>>authorized_keys
将主节点的authorized_keys文件分别替换子节点的authorized_keys文件
主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置
//主节点将自己公钥和各个子节点公钥合并成的authorized_keys文件分别拷贝的各个
//子节点,这样大家就会有相同的公钥,所以可以免密码登陆。
scp authorized_keys root@admin3:/root/.ssh/
scp authorized_keys root@admin4:/root/.ssh/
最后测试是否配置成功
在admin3上分别执行
ssh admin4
exit
ssh admin5
exit
能正确跳转到两台子节点的操作界面即可,同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。
在admin4上执行:
ssh admin3
exit
ssh admin5
exit
在admin5上执行:
ssh admin3
exit
ssh admin4
exit
这里的配置方式可以有多种操作步骤,最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。
3. 安装jdk
卸载jdk
查看系统已经装的jdk:
rpm -qa|grep jdk
卸载jdk:
rpm -e --nodepsjava-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64
安装JDK(三台机器都要安装)
安装位置/usr/hadoop/jdk1.8.0_73
下载JDK
解压JDK : tar -zxvf /usr/hadoop/jdk-8u73-linux-x64.gz
配置环境变量, 编辑profile文件:
vi /etc/profile
在profile文件末尾添加以下代码:
#sent jdk
export JAVA_HOME=/usr/hadoop/jdk1.8.0_73
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
保存后,使刚才编辑的文件生效:
source /etc/profile
测试是否安装成功:java –version
4.安装hadoop --在创建免密登陆的前提下实现hadoop集群
在master主机上安装hadoop
安装位置自定,例如安装在/usr目录下面
下载hadoop包,放在/usr目录下,解压hadoop
tar -zxvf /opt/hadoop/hadoop-2.6.4.tar.gz
在usr下面生成hadoop-2.6.4目录
配置环境变量:
vi /etc/profile
在末尾添加:
#sent hadoop
export HADOOP_HOME=/usr/hadoop/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
保存后使新编辑的profile生效:
source /etc/profile
5.配置hadoop
配置hadoop配置文件
需要配置的文件的位置为/hadoop-2.6.4/etc/hadoop,需要修改的有以下几个
hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
其中
hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量:
hadoop-env.sh中
# The java implementation to use.
export JAVA_HOME= /usr/hadoop/jdk1.8.0_73
(红色为新添加的内容,其他的代码是文件中原有的)
# The jsvc implementation to use. Jsvc isrequired to run secure datanodes
# that bind to privileged ports to provideauthentication of data transfer
# protocol. Jsvc is not required if SASL is configured for authentication of
# data transfer protocol usingnon-privileged ports.
#export JSVC_HOME=${JSVC_HOME}
yarn-env.sh中
# User for YARN daemons
exportHADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}
# resolve links - $0 may be a softlink
exportYARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"
# some Java parameters
exportJAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)
core-site.xml中
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value> <!—master是当前总结点的名称-->
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/temp</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
hdfs-site.xml中
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value> <!—master是当前总结点的名称-->
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.web.ugi</name>
<value>supergroup</value>
</property>
</configuration>
mapred-site.xml中(将目录下的mapred-site.xml.template文件拷贝一份,并命名为mapred-site.xml,然后再将下列代码拷入mapred-site.xml)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value> <!—master是当前总结点的名称-->
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
yarn-site.xml中
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value> <!—master是当前总结点的名称-->
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
slaves中
admin4
admin5
拷贝hadoop安装文件到子节点
主节点上执行:
scp -r hadoop-2.6.4 root@admin4:/usr/hadoop/ //两边路径保持一致,则所以都必须将//hadoop-2.6.4放到hadoop路径下
scp -r hadoop-2.6.4 root@admin5:/usr/hadoop/
拷贝prollfile到子节点
主节点上执行:
scp /etc/profile root@admin4:/etc/
scp /etc/profile root@admin5:/etc/
在两个子节点上分别使新的profile生效:
source /etc/profile
格式化主节点的namenode
主节点上进入hadoop目录
然后执行:
./bin/hadoop namenode –format
提示:successfully formatted表示格式化成功
启动hadoop
主节点上在hadoop目录下执行:(进入hadoop-2.6.4再进入sbin目录)
./start-all.sh
主节点上jps进程有:
NameNode
SecondaryNameNode
ResourceManager
每个子节点上的jps进程有:
DataNode
NodeManager
如果这样表示hadoop集群配置成功