目录
7.15 启动hadoop的hdfs集群,在node1执行即可
7.16 启动hadoop的yarn集群,在node1执行即可
8.1 在node1、node2、node3上通过jps验证进程是否都启动成功
8.2 验证HDFS,浏览器打开:http: / node1:9870
8.3 验证YARN,浏览器打开:http: / node1:8088
1. 简介
1
)
Hadoop
是一个由
Apache
基金会所开发的分布式系统基础架构。
2
)主要解决,海量数据的存储和海量数据的分析计算问题。
Hadoop HDFS
提供分布式海量数据存储能力;
Hadoop YARN
提供分布式集群资源管理能力;
Hadoop MapReduce
提供分布式海量数据计算能力
2. 前置要求
请确保完成了集群化环境前置准备章节的内容
即:
JDK
、
SSH
免密、关闭防火墙、配置主机名映射等前置操作
3. Hadoop集群角色
Hadoop
生态体系中总共会出现如下进程角色:
1. Hadoop HDFS
的管理角色:
Namenode
进程(
仅需
1
个即可(管理者一个就够)
)
2. Hadoop HDFS
的工作角色:
Datanode
进程(
需要多个(工人,越多越好,一个机器启动一个)
)
3. Hadoop YARN
的管理角色:
ResourceManager
进程(
仅需
1
个即可(管理者一个就够)
)
4. Hadoop YARN
的工作角色:
NodeManager
进程(
需要多个(工人,越多越好,一个机器启动一个)
)
5. Hadoop
历史记录服务器角色:
HistoryServer
进程(
仅需
1
个即可(功能进程无需太多1
个足够)
)
6. Hadoop
代理服务器角色:
WebProxyServer
进程(
仅需
1
个即可(功能进程无需太多1
个足够)
)
7. Zookeeper
的进程:
QuorumPeerMain
进程(
仅需
1
个即可(
Zookeeper
的工作者,越多越好)
)
4. 角色和节点分配
角色分配如下:
1. node1:Namenode
、
Datanode
、
ResourceManager
、
NodeManager
、 HistoryServer、
WebProxyServer
、
QuorumPeerMain
2. node2:Datanode
、
NodeManager
、
QuorumPeerMain
3. node3:Datanode
、
NodeManager
、
QuorumPeerMain
5. 调整虚拟机内存
如上图,可以看出
node1
承载了太多的压力。同时
node2
和
node3
也同时运行了不少程序,为了确保集群的稳定,需要对虚拟机进行内存设置。
请在
VMware
中,对:
1. node1
设置
4GB
或以上内存
2. node2
和
node3
设置
2GB
或以上内存
大数据的软件本身就是集群化(一堆服务器)一起运行的。现在我们在一台电脑中以多台虚拟机来模拟集群,确实会有很大的内存压力哦。