Hadoop及其组件介绍

最新推荐文章于 2024-03-09 18:35:27 发布

Micky_Yang

最新推荐文章于 2024-03-09 18:35:27 发布

阅读量983

点赞数

分类专栏： Hadoop学习

本文链接：https://blog.csdn.net/Micky_Yang/article/details/97551231

版权

本文介绍了Hadoop，一个基于Google GFS论文的分布式系统基础架构，用于处理和存储大数据。Hadoop包括NameNode、DataNode、ResourceManager等核心组件，以及HDFS、MapReduce、Hive、Hbase等关键组件，用于数据存储、计算、仓库和列式数据库。此外，还涵盖了Zookeeper、Sqoop、Pig、Mahout、Flume等工具，分别在分布式协作、数据同步、数据分析和日志收集方面发挥作用。

摘要由CSDN通过智能技术生成

一、Hadoop简介
　　Hadoop来源于Google的GFS论文，发表于2003年的10月，也是由Apache基金会所开发出的分布式系统基础架构。用户可以在不用了解分布式底层的实现细节情况下，开发分布式程序。充分利用主机集群的强大威力来进行数据的高速运算和存储等功能。Hadoop具有高容错性的特点，并且它的集群主机可以部署在低廉的硬件之上；而且它还提供了高吞吐量来访问应用程序的数据，适合用来处理超大数据集，而且它还可以以数据流的形式来访问文件系统中的数据。Hadoop的出现就是为了解决大数据（单台主机无法对数据进行存储和短时间内对数据进行处理）的问题。
　
二、Hadoop中的集群　
Hadoop基本集群的节点类型主要有：
　 1）NameNode（名称节点）：主要用来协调集群中的数据存储，管理HDFS的名称空间和数据块映射的信息，配置文件副本策略和处理客户端的请求。
　 2）DataNode（数据节点）：主要是存储实际被拆分的数据块，并汇报存储信息给NameNode。
　 3）Secondary NameNode（辅助节点）：主要用来辅助NameNode节点，帮助NameNode收集文件系统运行的状态信息，分担其工作量。
　 4）ResourceManager：在YARN中。负责集群中所有资源的统一管理和分配，它接受来自各节点资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序。
　 5）JobTracker：协调数据计算任务。
　 6）TaskTracker：负责执行有JobTra

最低0.47元/天解锁文章

Micky_Yang

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hadoop及其组件介绍

一、Hadoop简介　　Hadoop来源于Google的GFS论文，发表于2003年的10月，也是由Apache基金会所开发出的分布式系统基础架构。用户可以在不用了解分布式底层的实现细节情况下，开发分布式程序。充分利用主机集群的强大威力来进行数据的高速运算和存储等功能。Hadoop具有高容错性的特点，并且它的集群主机可以部署在低廉的硬件之上；而且它还提供了高吞吐量来访问应用程序的数据，适合用来处...
复制链接

扫一扫

专栏目录