Hadoop介绍

最新推荐文章于 2022-08-28 06:40:29 发布

逗比小猫

最新推荐文章于 2022-08-28 06:40:29 发布

阅读量561

点赞数

分类专栏：大数据文章标签： Hadoop

本文链接：https://blog.csdn.net/m0_38044453/article/details/83108924

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce
MapReduce的作业包括：1、从磁盘或者从网络读取数据，即IO密集工作；2、计算数据，即cpu密集工作
hadoop集群的整体性能取决于cpu、内存、网络以及存储之间的性能平衡，因此运营团队在选择机器配置时要针对不同的工作节点选择合适的硬件类型
一个基本的hadoop集群中的节点主要有
NameNode：负责协调集群中的数据存储（相当于目录）
DataNode：存储被拆分的数据块（存具体的地址）
JobTracker：协调数据计算任务（管理作业，把一个整的任务分成若干个小部分，它就是作为协调）
TaskTracker：负责执行由JobTracker指派的任务（在每个小机器上的任务）
SecondaryNameNode：帮助NameNode收集文件系统的运行状态。（NameNode的一个备份，是一个冷备份）

----------------------------------------------------------
在集群中，大部分的机器是作为Datanode和taskTracker工作的datanode/TaskTracker的硬件规格可以采用以下方案：
4个磁盘驱动（单盘1-2T）,支持JBOD（Just Bunch of Disks，磁盘簇）
2个4核CPU，至少2-2.5GHz
16-24内存
千兆以太网
NameNode提供整个HDFS文件系统的NameSpace（命名空间）管理、块管理等所有服务，因此需要更多的RAM，于集群中的数据块数量相对应，并且需要优化RAM的内存通道宽带，采用双通道或三通道以上内存。硬件规格可以采用以下方案：
8-12个磁盘驱动器（单盘1-2）T
2个4核/8核CPU
16-72GB内存
千兆/万兆以太网

SecondaryNameNode在小型集群中可以和NameNode共用一台机器，较大的群集可以采用与NameNode相同的硬件。

逗比小猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop介绍

hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduceMapReduce的作业包括：1、从磁盘或者从网络读取数据，即IO密集工作；2、计算数据，即cpu密集工作hadoop集群的整体性能取决于cpu、内存、网络以及存储之间的性能平衡，因此运营团队在选择机器配置时要针对不同的工作节点选择合适的硬件类型一个基本的hadoop集群中的节点主要有NameN...
复制链接

扫一扫