详细步骤如下
将上一节的single node cluster复制到data1
就是将你上一节搭建好的虚拟机复制到data1虚拟机
关于位置可以选择你上节安装的位置。应该是默认即可。
克隆完成之后,会出现一个data1的虚拟机
然后右键它并点击设置,更改以下内容
同时,记得调整你的内存大小,如果你的本机运行内存为16GB,可以将其调整为2GB.
- 如果物理内存16GB,建议设置master:4GB,data1,data2,data3:2GB.
- 如果物理内存8GB,建议设置master:2GB,data1,data2,data3:1GB.
然后对data1进行开机。
设置data1
1.设置网络配置
现在你有两个网络配置,一个是NAT,一个是仅主机
我们将这两个网卡分别设置为动态和静态。
sudo gedit /etc/network/interfaces
设置网卡1:
# NAT interfaces
auto ens33
iface ens33 inet dhcp
设置网卡2:
#host only
auto ens38
iface ens38 inet static
address 192.168.111.127
netmask 255.255.255.0
network 192.168.111.0
broadcast 192.168.111.255
请注意,address等设置需要看你的ifconfig
在终端输入ifconfig
查看。
2.设置主机名
sudo gedit /etc/hostname
改为data1, 如下图。
3.编辑Hosts文件
sudo gedit /etc/hosts
这个要看你的ip地址,即ens38下面的。可以借鉴我的。
4.编辑core-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
将localhost 改为master
5.编辑YARN-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
加入下面内容:
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8025</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8050</value>
</property>
6.编辑mapred-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
内容修改如下:
<property>
<name>mapred.job.tracker</name>
<value>master:54311</value>
</property>
7.编辑hdfs-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
将dfs.namenode.name.dir
等删掉,只保留datanode.
操作完成之后,重启,查看是否能访问网络:
ping www.baidu.com
出现下面内容说明可以成功访问
或者打开浏览器访问网络。
重复将data1完整复制到data2,data3,master
依次修改以下内容:
- 设置data2的固定IP
sudo gedit /etc/network/interfaces
将address下的192.168.111.127修改为192.168.111.128
按照你自己的IP进行修改,不要照搬。
- 设置data2主机名
sudo gedit /etc/hostname
修改为data2
- 重新启动
- 依次对data3,master执行相同操作。
设置master服务器
- 编辑hdfs-site.xml
- 设置masters文件
sudo gedit /usr/local/hadoop/etc/hadoop/masters
出现空白页面,输入master
- 设置slaves文件
sudo gedit /usr/local/hadoop/etc/hadoop/slaves
输入
data1
data2
data3
- 重启,查看网络
master连接data1,data2,data3
- 连接data1
一行行输入下列命令
ssh data1
sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown -R daishuli:daishuli /usr/local/hadoop
exit
- 连接data2,data3, 重复上面命令.
创建并格式化NameNode HDFS
sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
sudo chown -R daishuli:daishuli /usr/local/hadoop
hadoop namenode -format
启动Hadoop Multi Node Cluster
到这,多节点分布式集群就建立完成了。我们检验一下。
start-all.sh
jps
出来下图即可
再打开Web看一下
网址为:http://master:8088
进入http://master:50070
到这一步,hadoop分布式框架就搭建完成了。
恭喜!
下面开始安装spark。