Hadoop分布式集群搭建
一、需求分析(或者应用场景)
Hadoop分布式集群(测试,开发,学习最应该使用)
利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理,简言之Hadoop就是存储海量数据和分析海量数据的工具。
应用场景:大型数据仓库 酷狗音乐的大数据平台 Facebook、Google等等
二、项目运行效果
三、项目完成步骤
一,环境准备:
节点 CPU 内存 硬盘 IP
Master 1核 1G 20G 192.168.36.138
Slave1 1核 1G 20G 192168.36.139
Slave2 1核 1G 20G 192.168.36.140
安装包:jdk-8u171-linux-x64.tar.gz
hadoop-2.7.5.tar.gz
资源下载地址:https://download.csdn.net/download/qq_45214189/21798569
(此处虚拟机配置选取的最小化配置,后续增加服务需要更大配置)
节点服务配置:
Master DataNode NameNode NodeManager ResourceManager
Slave1 DataNode NodeManager
Slave2 DataNode NodeManager SecondaryNameNode
二,配置节点
基础配置
关闭防火墙:
systemctl stop firewalld
(此处截图以master为例)
修改主机名:
hostnamectl set-hostname master
hostnamectl set-hostname slave1
hostnamectl set-hostname slave2
配置映射:
vi /etc/hosts
192.168.36.138 master
192.168.36.139 slave1
192.168.36.140 slave2
(此处截图以master为例)
配置时间同步(ntp服务)
master
安装ntp服务及其依赖关系:yum install -y ntp
配置ntp服务:vi /etc/ntp.conf
server 127.127.1.0
fudge 127.127.1.0 stratum 10
启动ntp服务:systemctl status ntpd (service ntpd start)
设置ntp服务自启动:systemctl disable ntpd (service ntpd enabled)
slave1&slave2
安装ntp服务及其依赖关系:yum install -y ntpdate
时间同步:ntpd