第一部份 Hadoop入门
一、Hadoop概述
- 介绍
- 发行版本
- 特点
- 组成
- 大数据技术生态体系
1.1 Hadoop概念
- Hadoop是Apache基金会开发的分布式系统基础架构
- 主要解决海量数据存储和分析计算
- 广义Hadoop指Hadoop生太圈
1.2 Hadoop发行版
- Apache原始开源版
- Cloudera商业版CDH
- Hortonworks商业版HDP
- 两家公司合并后的商业版CDP
1.3 Hadoop特点
- 高可靠——多副本
- 高扩展——动态增加服务器
- 高效——并行工作
- 高空错——失败任务重新分配
1.4 Hadoop组成
功能 | 1.x | 2.x |
---|---|---|
计算 | MapReduce | MapReduce |
资源调度 | MapReduce | Yarn |
数据存储 | HDFS | HDFS |
辅助工具 | Common | Common |
- HDFS
HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统。
- NameNode(nn)——文件源数据
- DataNode(dn)——文件数据
- Secondary NameNode(2nn)——nn定期备份(非热备)
源数据,是描述数据的数据,用于描术数据的属性信息
- Yarn
Yarn(Yet Another Resource Negotiator)是Hadoop资源管理器。
- ResourcesManager(RM)——集群资源管理器
- NodeManager(NM)——节点管理器
- ApplicationMaster(AM)——应用管理器
- Container——容器(独立服务器)
- MapReduce
- Map阶段——并行处理输入数据
- Reduce阶段——结果汇总
- 运作方式