Hadoop由哪几部分组成？

最新推荐文章于 2024-08-01 14:36:11 发布

墨染繁华执念心悠

最新推荐文章于 2024-08-01 14:36:11 发布

阅读量2.1k

点赞数 1

分类专栏： Hadoop 文章标签： Hadoop

本文链接：https://blog.csdn.net/qq_35968375/article/details/90114810

版权

Hadoop是一个分布式处理框架，主要包括HDFS、MapReduce、Hive、HBase等组件。HDFS提供分布式文件系统，MapReduce用于大规模数据处理，Hive提供SQL-like查询功能，HBase是分布式数据库，而ZooKeeper则负责分布式协调。此外，还包括Avro的数据序列化、Chukwa的数据采集、Pig的数据流语言和Mahout的机器学习库。

摘要由CSDN通过智能技术生成

Hadoop是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理，其有许多元素构成，以下是其组成元素：

1.Hadoop Common：Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。

2.HDFS：分布式文件系统，提供高吞吐量的应用程序数据访问，对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是HDFS 的架构是基于一组特定的节点构建的（参见图 1），这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。由于仅存在一个 NameNode，因此这是 HDFS 的一个缺点（单点失败）。

存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

3.MapReduce：一个分布式海量数据处理的软件框架集计算集群。

4.Avro ：doug cutting主持的RPC项目，主要负责数据的序列化。有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑。

5.Hive ：类似CloudBase，也是基于hadoop分布式计算平台上