提示:如果还不了解Hadoop的,可以下查看这篇文章Hadoop生态系统,通过这篇文章,我们可以首先大致了解Hadoop及Hadoop的生态系统中的工具的使用场景。
搭建一个分布式的hadoop集群环境,下面是详细步骤,使用cdh5 。
操作系统
|
64位
|
CPU
|
(英特尔)Intel(R) I3处理器
|
内存
|
8.00 GB ( 1600 MHz)
|
硬盘剩余空间
|
50G
|
操作系统
|
64位
|
CPU
|
(英特尔)Intel(R) I5处理器或以上配置
|
内存
|
16.00 GB ( 1600 MHz)
|
硬盘剩余空间
|
100G
|
注意:上面是在单个pc机上搭建集群,所以对内存要求较高。若是在多台pc机上搭建集群环境,则只需要内存足够即可。
二、软件环境准备
虚拟机 | VMWare |
操作系统 | CentOS6.5 |
JDK | jdk-7u79-linux-x64.tar.gz |
远程连接 | XShell |
hadoop生态系统 |
hadoop-2.6.0-cdh5.4.5.tar.gz hbase-1.0.0-cdh5.4.4.tar.gz hive-1.1.0-cdh5.4.5.tar.gz flume-ng-1.5.0-cdh5.4.5.tar.gz sqoop-1.4.5-cdh5.4.5.tar.gz zookeeper-3.4.5-cdh5.4.5.tar.gz |
CDHNode1 /192.168.3.188 |
CDHNode2 /192.168.3.189 |
CDHNode3 /192.168.3.190 |
CDHNode4 /192.168.3.191 |
CDHNode5 /192.168.3.192 |
|
---|---|---|---|---|---|
namenode |
是 |
是 |
否 |
否 |
否 |
datanode |
否 |
否 |
是 |
是 |
是 |
resourcemanager |
是 |
是 |
否 |
否 |
否 |
journalnode |
是 |
是 |
是 |
是 |
是 |
zookeeper |
是 |
是 |
是 |
否 |
否 |
注意:Journalnode和ZooKeeper保持奇数个,最少不少于 3 个节点。具体原因,以后详叙。
我的主机分配情况是在两台pc的虚拟机上安装centos系统,具体分配情况如下:
CDHNode1 | CDHNode2 | CDHNode3 | CDHNode4 | CDHNode4 | |
PC1 | 是 | 是 | |||
PC2 | 是 | 是 | 是 |
三、详细安装步骤
我们首先在1个主机(CHDNode1/192.168.3.188)上安装centos6.5操作系统,使用root用户配置网络,创建hadoop用户,关闭防火墙,安装一些必备软件。为记下来的集群软件安装做准备。
CentOS6.5安装
在主机CHDNode1/192.168.3.188,安装CentOS6.5操作系统。详细安装步骤可以查看CentOS安装这篇文章。此处就不再赘叙。
网络配置
1.打开安装好的CentOS虚拟机CDHNode1
2、登录CentOS系统
3.输入ifconfig命令,先查看ip地址
4、这个时候我们发现除了回环地址以外,我们并不能和外界通信,比如我们可以使用ping命令进行测试。
注意:ping 127.0.0.1时,结束icmp报文,使用Ctrl+C命令
第一次ping 百度,ping不通,说明虚拟机无法连接外网
第二次ping 虚拟机NAT网关,ping不通
注:虚拟机网关查看方法
点击虚拟机网络编辑器,点击VMnet8
点击Nat设置
第三次ping物理机ip地址,ping不通
注:查看物理机IP地址,开启cmd.exe ,输入ipconfig
第四次ping虚拟机的回环地址,ping成功,说明虚拟机的网络协议是正确的
5、修改网卡的配置文件
可以看到虚拟机网卡没有开启,因此修改ONBOOT=yes,然后保存退出(按Esc键,然后输入:wq)
6、重启网络服务
7、再次输入ifconfig命令,查看ip地址。
注意:我的虚拟机设置的是桥接模式,所以ip地址是192.168.2.X网段,或192.168.3.X网段;因为桥接模式是直接使用物理网卡,而我的物理主机的网关是192.168.0.1,子网掩码是255.255.252.0,所以我的虚拟机ip地址可以在192.168.0.2-192.168.3.255之间任意选择(除了物理主机的ip)。若你的虚拟机是使用nat模式,可能就是,如:以我的虚拟机为例,nat网关是192.168.117.2,子网掩码为255.255.255.0,所以虚拟机的ip地址可以在192.168.117.3-192.168.117.255之间任意选择。
此时网卡已经成功开启。
8.再次ping步骤4的ip或域名,查看具体情况
检查本机网络协议
检查网卡链路
检查Nat网关
检查外网
此时虚拟机连接互联网成功,但使用dhcp(动态主机配置协议)配置ip地址,此时的IP地址时动态生成的,不方便以后hadoop集群环境的搭建。所以我们还需要配置静态Ip地址,配置详情,下面细说。
9、使用ifconfig命令可以查看动态ip地址为192.168.3.188,所以接下来我们把此ip作为CDHNode1的静态ip地址。注:你可以使用你的动态ip作为你当前主机的静态ip。然后后面几台IP地址可以紧跟着设置成,如192.168.3.189。DHCP生成ip地址是随机的,你可具体问题具体分析。
10、修改网卡配置信息,把BOOTPROTO=dhcp修改为BOOTPROTO=static,并且添加上设置的ip地址,子网掩码,和网关。
注意:由于我是在两台pc上配置集群环境,所以我使用的是桥接模式。若你是在一台主机上建议你使用Nat(网络地址转换)模式。因为nat模式的网关在不同的电脑上虚拟机VMWare虚拟出来的网段是不同的。不方便使用Xshell连接。
下面是桥接模式的配置,IPADDR是设置ip地址,NETMASK(子网掩码)与GATEWAY(网关)可以设置成与物理主机一样的NETMASK(子网掩码)与GATEWAY(网关)。注:物理主机ip配置具体查看,看上面的步骤4。
下面是Nat模式的配置,IPADDR是设置ip地址,NETMASK(子网掩码)与GATEWAY(网关)可以设置成与物理主机一样的NETMASK(子网掩码)与GATEWAY(网关)。注:Nat模式ip配置具体查看,看上面的步骤4。
上面步骤中我们可以看到Nat模式的网关是192.168.117.2,子网掩码为255.255.255.0
所以具体可配置成
BOOTPROTO=static
IPADDR=192.168.117.40
NETMASK=255.255.255.0
GATEWAY=192.168.117.2
最后按Esc,然后:wq保存退出。(注意编辑按i或a即可进入编辑模式,具体操作查看vi命令的使用说明)
11、重启网络服务