部署和运行Hadoop
1、运行环境
1. 操作系统
- Linux
2. Java环境
- Hadoop使用Java语言编写,因此运行环境需要Java环境的支持。
3. SSH
- Hadoop集群若想运行,其运行平台Linux必须安装SSH,且sshd服务必须运行,只有这样,才能使用Hadoop脚本管理远程Hadoop守护进程。
2、运行模式
1. 单机模式
- 只在一台计算机上运行,不需要任何配置,在这种模式下,Hadoop所有守护进程都编程一个Java进程,存储采用本地文件系统,没有采用分布式文件系统HDFS。
2. 伪分布模式
- 只在一台计算机上运行,在这种模式下,Hadoop所有守护进程都运行在一个节点上,在一个节点上模拟了一个具有Hadoop完整功能的微型集群,存储采用分布式文件系统HDFS,但是HDFS的名称节点和数据节点都位于同一台计算机上。
3. 全分布模式
- 在多台计算机上运行,在这种模式下,Hadoop的守护进程运行在多个节点上,形成一个真正有意义的集群,存储采用分布式文件系统HDFS,且HDFS的名称节点和数据节点位于不同计算机上。
3、规划Hadoop集群
1. Hadoop集群架构规划
2. 软件选择
- 虚拟机工具
VMware Workstation Pro - Linux操作系统
CentOS7 - Java
JDK 1.8 - SSH
Hadoop集群若想运行,其运行平台Linux必须安装SSH,且必须运行sshd服务 - Hadoop
Hadoop 2.9.2
4、准备机器及软件环境
1.准备机器
2.配置静态IP
[root@master ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static #设置静态IP
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=67fb0427-07cd-4fa1-8598-3f3429ecea00
DEVICE=ens33
ONBOOT=yes #这里如果为no的话就改为yes,表示网卡设备自动启动
IPADDR=192.168.18.130 #配置ip,在第二步已经设置ip处于192.168.18.xxx这个范围,我就设为130了,只要不和网关相同均可
NETMASK=255.255.255.0 #子网掩码
GATEWAY=192.168.18.2 #这里的网关地址就是第二步获取到的那个网关地址
DNS1=10.50.0.1 #dns服务器1,填写你所在的网络可用的dns服务器地址即可
DNS2=8.8.8.8 #或者这一个
使用下面命令重启网络使得配置生效