Hadoop分布式系统架构详解

最新推荐文章于 2024-07-22 02:03:54 发布

25577033_malong

最新推荐文章于 2024-07-22 02:03:54 发布

阅读量3.9k

点赞数 1

分类专栏：大数据文章标签： hadoop 架构 big data

本文链接：https://blog.csdn.net/qq_29429829/article/details/122800381

版权

本文详细解析Hadoop分布式系统，包括HDFS的分组合并思想、架构设计、核心组件如NameNode和DataNode的工作机制，以及MapReduce的并行计算模型。Hadoop通过分组和合并策略处理大数据，广泛应用于大数据分析、存储和处理。

摘要由CSDN通过智能技术生成

导语：hadoop 简单来说就是用 java写的分布式，处理大数据的框架，主要思想是 “分组合并” 思想。
分组：比如有一个大型数据，那么他就会将这个数据按照算法分成多份，每份存储在从属主机上，并且在从属主机上进行计算，主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。
合并：将每个机器上的计算结果合并起来再在一台机器上计算，得到最终结果。这就是mapreduce 算法.
Hadoop主要的任务部署分为3个部分，分别是：Client机器，主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时，名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分，担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又冲当与他们主节点通信的守护进程。守护进程隶属于Job Tracker，数据节点在归属于名称节点。

1、Hadoop的整体框架

Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS（Hadoop Distributed File System）来执行MapReduce程序的MapReduce引擎。
在这里插入图片描述（1）Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口；
（2）Hive是