Hadoop集群搭建
1.Hadoop集群搭建准备工作
1.1.关闭防火墙
service iptables stop
chkconfig iptables off
1.2.添加固定ip(每个节点都需要添加)
vi /etc/sysconfig/network-scripts/ifcfg-eth0
在文件中添加以下内容:(文中标红部分可通过ifconfig命令查找)
ONBOOT=yes
BOOTPROTO=none
IPADDR=192.168.92.128
GATEWAY=192.168.92.2
DNS1=8.8.4.4
DNS2=222.85.85.85
保存之后重启network
service network restart
1.3.安装JDK(详见JDK安装文档)
https://blog.csdn.net/Copper01/article/details/84064655
2.Hadoop集群搭建
2.1.配置服务器
1个主节点:master(192.168.92.128),2个(从)子节点,slaver1(192.168.92.129),slaver2(192.168.92.130)
2.1.1.配置主节点名(192.168.92.128)
vi /etc/sysconfig/network
在文件中添加以下内容:
NETWORKING=yes
HOSTNAME=master
2.1.2.同理配置两台子节点名(192.168.92.129)和(192.168.92.130)
将子节点的文件中的HOSTNAME改为对应主机名slaver1,slaver2即可
2.1.3.配置hosts文件
打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。
vi /etc/hosts
#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.92.128 master
192.168.92.129 slaver1
192.168.92.130 slaver2
保存之后,将主节点的hosts分别拷贝到其他两个子节点
scp /etc/hosts root@192.168.92.129:/etc/
scp /etc/hosts root@192.168.92.130:/etc/
然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostname master,使之生效
(标红部分分别为各节点主机名)
2.2.配置ssh无密码访问
2.2.1.生成公钥密钥对
在每个节点上分别执行:
ssh-keygen -t rsa
一直按回车直到生成结束
执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub
其中前者为私钥,后者为公钥
在主节点上执行:
cp id_rsa.pub authorized_keys
2.2.2.将子节点的公钥拷贝到主节点并添加进authorized_keys
将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:
scp ~/.ssh/id_rsa.pub root@master:~/.ssh/id_rsa_slaver1.pub
scp ~/.ssh/id_rsa.pub root@master:~/.ssh/id_rsa_slaver2.pub
然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去
主节点上执行:
cat id_rsa_slaver1.pub>> authorized_keys
cat id_rsa_slaver2.pub>> authorized_keys
最后测试是否配置成功
在master上分别执行
ssh slaver1
ssh slaver2
能正确跳转到两台子节点的操作界面即可,同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。
这里的配置方式可以有多种操作步骤,最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。
2.2.3.将主节点的authorized_keys文件分别替换子节点的authorized_keys文件
主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置
scp -r authorized_keys root@slaver1:/root/.ssh/
scp -r authorized_keys root@slaver2:/root/.ssh/
2.3.安装hadoop
2.3.1.在master主机上安装hadoop
1).在/usr下新建目录hadoop,上传并解压hadoop安装包
tar -zxvf hadoop-2.7.7.tar.gz
2).配置环境变量:
vi /etc/profile
在文件末尾添加:
#Hadoop
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存后使新编辑的profile生效:
source /etc/profile
2.4.配置hadoop
2.4.1.配置hadoop配置文件
需要配置的文件的位置为/hadoop-2.7.7/etc/hadoop,需要修改的有以下几个
hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
1).在hadoop-env.sh中
# The java implementation to use.
export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/etc/jdk1.8.0_181
只添加标红部分即可,其余为文件中原有的
2).在yarn-env.sh中
# some Java parameters
export JAVA_HOME=/usr/etc/jdk1.8.0_181
只添加标红部分即可,其余为文件中原有的
3).在core-site.xml中
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/temp</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
4).在hdfs-site.xml中
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/dfs/data</value>
</property>
<property>
<value>2</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.web.ugi</name>
<value> supergroup</value>
</property>
</configuration>
5).在mapred-site.xml中
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
6).在yarn-site.xml中
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
7).在slaves中修改内容为:
[root@master hadoop]# vi slaves
master
slaver1
slaver2
2.5.拷贝hadoop安装目录到其他子节点
scp -r /usr/hadoop root@slaver1:/usr
scp -r /usr/hadoop root@slaver2:/usr
2.6.拷贝profile到其他子节点
scp /etc/profile root@slaver1:/etc/
scp /etc/profile root@slaver2:/etc/
在两个子节点上分别使新的profile生效:
source /etc/profile
2.7.格式化主节点的namenode
在主节点上hadoop的根目录下执行:
./bin/hdfs namenode -format
提示:successfully formatted表示格式化成功
2.8.启动hadoop
在主节点上hadoop的根目录下执行:
./sbin/start-all.sh
主节点上jps进程有:
NameNode
SecondaryNameNode
ResourceManager
每个子节点上的jps进程有:
DataNode
NodeManager
如果这样表示hadoop集群配置成功
2.9.浏览器查看(50070端口)
(8088端口)