集群简介
三大组件
HDFS:Hadoop Distributed File System 分布式文件系统
YARN:Yet Another Resource Negotiator 资源管理调度系统
MapReduce:分布式计算框架
两大集群
相关概念
1. 两集群逻辑上分离
两个集群之间没有依赖关系,互不影响
2. 物理上在一起
其中角色往往部署在同一物理服务器上
3. 为什么没有MapReduce集群?
MapReduce是计算框架,属于代码层面的组件
概念图
集群部署方式
1. 单机模式 Standalone mode
1台机器运行1个Java进程,所有的角色都在一个进程中运行。主要用于调试
2. 伪分布式 Pseudo-Distributed mode
1台机器运行多个进程,每个角色都有一个进程。同样用于调试
3. 集群模式 Cluster mode
使用多台主机组成一个Hadoop集群,主节点和从节点会分开部署在不同机器上。主要用于生产环境部署
4. HA高可用 HAmode
在集群模式的基础上,为单点故障部署备份角色,形成主备架构,实现容错
集群搭建
服务器基础环境准备
包括主机名 Hosts映射 防火墙关闭 ssh免密登录 集群时间同步 JDK安装
创建统一工作目录,上传、解压安装包
集群启动
前提:已经搭建好集群
逐个进程的手动启停
需要在每一个进程中手动输入一次
HDFS集群
hdfs --daemon.sh shart namenode|datanode|secondarynamenode
hdfs --daemon.sh stop namenode|datanode|secondarynamenode
namenode,datanode,secondarynamenode 分别代表HDFS中的3个进程,手动启停时每次只能启停一个进程
YARN集群
yarn --daemon.sh shart resourcemanager|nodemanager
yarn --daemon.sh stop resourcemanager|nodemanager