大数据集群（Hadoop生态）安装部署

最新推荐文章于 2024-05-02 17:21:37 发布

时光の尘

最新推荐文章于 2024-05-02 17:21:37 发布

阅读量399

点赞数 1

分类专栏： Linux学习文章标签：大数据 hadoop 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MANONGDKY/article/details/133711444

版权

目录

2. 前置要求

3. Hadoop集群角色

4. 角色和节点分配

5. 调整虚拟机内存

6. Zookeeper集群部署

7. Hadoop集群部署

7.1 下载Hadoop安装包、解压、配置软链接

7.2 修改配置文件：hadoop-env.sh

7.3 修改配置文件：core-site.xml

7.4 配置：hdfs-site.xml文件

7.5 配置：mapred-env.sh文件

7.6 配置：mapred-site.xml文件

7.7 配置：yarn-env.sh文件

7.8 配置：yarn-site.xml文件

7.9 修改workers文件

7.10 分发hadoop到其它机器

7.11 在node2、node3执行

7.12 创建所需目录

7.13 配置环境变量

7.14 格式化NameNode，在node1执行

7.15 启动hadoop的hdfs集群，在node1执行即可

7.16 启动hadoop的yarn集群，在node1执行即可

7.17 启动历史服务器

7.18 启动web代理服务器

8. 验证Hadoop集群运行情况

8.1 在node1、node2、node3上通过jps验证进程是否都启动成功

8.2 验证HDFS，浏览器打开：http: / node1:9870

8.3 验证YARN，浏览器打开：http: / node1:8088

1. 简介

1 ） Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。

2 ）主要解决，海量数据的存储和海量数据的分析计算问题。

Hadoop HDFS 提供分布式海量数据存储能力;

Hadoop YARN 提供分布式集群资源管理能力;

Hadoop MapReduce 提供分布式海量数据计算能力

2. 前置要求

请确保完成了集群化环境前置准备章节的内容

即： JDK 、 SSH 免密、关闭防火墙、配置主机名映射等前置操作

链接：集群化环境前置准备_时光の尘的博客-CSDN博客

链接： Zookeeper集群安装部署、Kafka集群安装部署_时光の尘的博客-CSDN博客

3. Hadoop集群角色

Hadoop 生态体系中总共会出现如下进程角色：

1. Hadoop HDFS 的管理角色： Namenode 进程（仅需 1 个即可（管理者一个就够））

2. Hadoop HDFS 的工作角色： Datanode 进程（需要多个（工人，越多越好，一个机器启动一个））

3. Hadoop YARN 的管理角色： ResourceManager 进程（仅需 1 个即可（管理者一个就够））

4. Hadoop YARN 的工作角色： NodeManager 进程（需要多个（工人，越多越好，一个机器启动一个））

5. Hadoop 历史记录服务器角色： HistoryServer 进程（仅需 1 个即可（功能进程无需太多1 个足够））

6. Hadoop 代理服务器角色： WebProxyServer 进程（仅需 1 个即可（功能进程无需太多1 个足够））

7. Zookeeper 的进程： QuorumPeerMain 进程（仅需 1 个即可（ Zookeeper 的工作者，越多越好））

4. 角色和节点分配

角色分配如下：

1. node1:Namenode 、 Datanode 、 ResourceManager 、 NodeManager 、 HistoryServer、 WebProxyServer 、 QuorumPeerMain

2. node2:Datanode 、 NodeManager 、 QuorumPeerMain

3. node3:Datanode 、 NodeManager 、 QuorumPeerMain

5. 调整虚拟机内存

如上图，可以看出 node1 承载了太多的压力。同时 node2 和 node3 也同时运行了不少程序，为了确保集群的稳定，需要对虚拟机进行内存设置。

请在 VMware 中，对：

1. node1 设置 4GB 或以上内存

2. node2 和 node3 设置 2GB 或以上内存

大数据的软件本身就是集群化（一堆服务器）一起运行的。

现在我们在一台电脑中以多台虚拟机来模拟集群，确实会有很大的内存压力哦。

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据集群（Hadoop生态）安装部署

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

时光の尘 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。