一、hadoop
1. hadoop的定义:hadoop是一个分布式存储和分布式计算的框架。
分布式存储:是一个数据存储技术,将数据存储在多个服务上的(存储单元)磁盘空间中。目前解决的是大量数据存储问题
分布式计算:将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
2. hadoop的核心组件
HDFS:分布式存储组件
MapReduce:分布式计算组件
Yarn:资源调度管理器
3.架构模型
文件系统核心模块**:
**NameNode**:集群当中的主节点,主要用于管理集群当中的各种元数据
**secondaryNameNode**:主要能用于hadoop当中元数据信息的辅助管理
**DataNode**:集群当中的从节点,主要用于存储集群当中的各种数据
**数据计算核心模块:**
**ResourceManager**:接收用户的计算请求任务,并负责集群的资源分配
**NodeManager**:负责执行主节点APPmaster分配的任务
4.Hadoop 的安装有三种方式
单机模式:直接解压,只支持MapReduce的测试,不支持HDFS,一般不用。
伪分布式模式