Hadoop学习笔记(二)核心组件
Hadoop分布式系统主要包括以下几个核心组件
1、Hadoop Common
Hadoop的公共组件,主要是为其他核心组件提供支持
2、Hadoop Distributed File System (HDFS)
Hadoop 分布式文件系统, 为应用数据提供高可用的访问。HDFS包括NameNode和DataNode两个部分
NameNode:存放与管理文件系统的元数据,什么是元数据,就是用于描述真正数据信息的一些数据。
DataNode:存放与管理文件系统中真正的数据。
3、Hadoop YARN
用于Hadoop 集群的任务调度和资源管理的框架。包含:resourceManage和nodeManage两个部分
resourceManage:负责集群的资源分配与调度,监控nodeManage
nodeManage:负责对单个节点进行资源管理和处理资源管理器的请求
4、Hadoop MapReduce
大数据计算与处理框架:包含Map和Reduce两个部分
Map:接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对
Reduce:接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。