Hadoop hadoop各模块的架构（分布式）功能

最新推荐文章于 2024-07-22 02:03:54 发布

isOllie

最新推荐文章于 2024-07-22 02:03:54 发布

阅读量1k

点赞数 1

分类专栏： Hadoop 文章标签： hadoop 分布式集群

本文链接：https://blog.csdn.net/qq_39141486/article/details/94483607

版权

Hadoop 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

Hadoop 所包含的模块

• Hadoop Common: The common utilities that support the other Hadoop modules.
公共的工具，为其他模块提供支撑的
• Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
• HDFS是一个分布式文件系统，提供高吞吐量数据存储
• Hadoop YARN: A framework for job scheduling and cluster resource management.
是一框架，任务调度和集群资源管理
• Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
大数据集合的并行计算

分布式

相对于集中式
多台机器协作完成
架构：
主节点Master：老大，管理者
管理
从节点slave：小弟，努力，被管理者
干活的
集群：多个机器的群体，
集群和分布式的区别：
分布式一定是集群
集群不一定是分布式。

HDFS：存储数据

将数据划分为很多个块，默认一个块block（128MB）,一个500M文件4块，每一个块存储3份，存储3份的好处，为了安全（空间换安全性）。
主节点：NameNode
决定数据存储在那个DataNode
管理元数据（那个机器存储了什么数据，索引）
管理所有从节点
从节点：DataNode
存储数据，管理数据（管理当前机器）

MapReduce

并行计算的框架，分而治之的思想
将海量的数据划分为多个部分，每部分单独进行处理，最后将所有处理的结果进行合并
Map：MapTask
但对处理每一部分的数据
按照OOP思想，就是一个方法（map），在里面处理实际业务逻辑能力
Reduce：ReduceTask
合并MapTask输出的结果数据
按照OOP思想，就是一个方法（reduce），在里面处理实际业务逻辑能力

在这里插入图片描述