Hadoop生态系统模块功能分析

最新推荐文章于 2024-01-04 18:30:09 发布

Frank_me

最新推荐文章于 2024-01-04 18:30:09 发布

阅读量1.1k

点赞数 1

分类专栏：工作日志文章标签： Hadoop 分布式系统大数据 Hbase/MapReduce/HDFS

本文链接：https://blog.csdn.net/Frank_me/article/details/84028604

版权

本文深入分析了Hadoop生态系统的四个关键模块：HDFS提供分布式文件系统，Hbase是面向列的非关系数据库，MapReduce是分布式计算框架，Zookeeper作为分布式协作服务，确保数据一致性。HDFS由Client、NameNode和DataNode等组成，Hbase在Hadoop中实现大规模数据的实时读写，MapReduce包含Map和Reduce任务，Zookeeper维护集群一致性。

摘要由CSDN通过智能技术生成

Hadoop生态系统模块框架如图1-1所示：

图1-1 Hadoop生态系统模块框架

Hadoop生态系统保护的模块有：

（一）HDFS：分布式文件系统

用于提供Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。HDFS这一部分主要有一下几个部分组成：
Client：切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。
NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。
DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。
Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和edits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。目前，在硬盘不坏的情况，我们可以通过secondarynamenode来实现namenode的恢复。

（二）Hbase：非关系数据库

HBase是Google Bigtable克隆版，HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。Hbase在Hadoop中的分布情况如图2-1所示：

图2-1 Hbase在Hadoop中的分布情况

ZooKeeper主要实现Hmaster的高可用，Hmaster用来

最低0.47元/天解锁文章

Frank_me

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态系统模块功能分析

Hadoop生态系统模块框架如图1-1所示：图1-1 Hadoop生态系统模块框架Hadoop生态系统保护的模块有：（一）HDFS：分布式文件系统用于提供Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序...
复制链接

扫一扫

专栏目录