hadoop的介绍

最新推荐文章于 2024-04-26 22:46:43 发布

BigDataEngineer

最新推荐文章于 2024-04-26 22:46:43 发布

阅读量273

点赞数

分类专栏： Hadoop 文章标签： Hadoop介绍 Hadoop详解

本文链接：https://blog.csdn.net/BigDataEngineer/article/details/103199077

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在这里插入图片描述

hadoop三大公司发型版本介绍

免费开源版本apache：
http://hadoop.apache.org/
优点：拥有全世界的开源贡献者，代码更新迭代版本比较快，
缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，学习可以用，实际生产工作环境尽量不要使用
apache所有软件的下载地址（包括各种历史版本）：
http://archive.apache.org/dist/

免费开源版本hortonWorks：
https://hortonworks.com/
hortonworks主要是雅虎主导Hadoop开发的副总裁，带领二十几个核心成员成立Hortonworks，核心产品软件HDP（ambari），HDF免费开源，并且提供一整套的web管理界面，供我们可以通过web界面管理我们的集群状态，web管理界面软件HDF网址（http://ambari.apache.org/）
软件收费版本ClouderaManager:
https://www.cloudera.com/
cloudera主要是美国一家大数据公司在apache开源hadoop的版本上，通过自己公司内部的各种补丁，实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题，生产环境强烈推荐使用

hadoop的架构模型

–1.x，2.x的各种架构模型介绍

1.x的版本架构模型介绍
在这里插入图片描述
###文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据
secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据
###数据计算核心模块：
JobTracker：接收用户的计算请求任务，并分配任务给从节点
TaskTracker：负责执行主节点JobTracker分配的任务

2.x的版本架构模型介绍
第一种：NameNode与ResourceManager单节点架构模型
在这里插入图片描述
###文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据
secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

###数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分
NodeManager：负责执行主节点ResourceManager分配的任务
第二种：NameNode单节点与ResourceManager高可用架构模型
在这里插入图片描述
#文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据
secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

#数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分，通过zookeeper实现ResourceManager的高可用
NodeManager：负责执行主节点ResourceManager分配的任务
第三种：NameNode高可用与ResourceManager单节点架构模型
在这里插入图片描述
#文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，其中nameNode可以有两个，形成高可用状态
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据
JournalNode：文件系统元数据信息管理

#数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分
NodeManager：负责执行主节点ResourceManager分配的任务
第四种：NameNode与ResourceManager高可用架构模型
在这里插入图片描述
#文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实现HA高可用
JournalNode：元数据信息管理进程，一般都是奇数个
DataNode：从节点，用于数据的存储