学习总结
hadoop由两大块组成:
hadoop自身
+hadoop生态
hadoop管理的是文件,也就是相当于一个windows的文件资源管理器,文件可以是任意文件格式
hadoop的核心组件
hadoop的核心组件有
hdfs
,yarn
,mapreduce
- hdfs是由两部分构成
NameNode:节点目录
,DataNode:数据保存节点
,NameNode数量可以少于DataNode- yarn是资源管理模块由两部分构成
RouceManger:总的资源管理器
,NodeManager:接收总的资源管理器调度的子资源管理器
- mapredue是一个离线计算工具,用来指挥yarn做计算调度的
hadoop生态
- 数据存储扩展:hbase,kafa,flume
- 数据计算查询:hive,spark
- 任务调度:Ozie
hadoop版本
一、Hadoop 版本主要有四个,分别是:
- Apache(最原始的版本,所有发行版均基于这个版本进行改进)
- Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)
- Hortonworks版本(Hortonworks Data Platform,简称HDP)
- CDP(CDH和HDP合并后的产品,是付费的没有免费版)
对于国内而言,绝大多数选择 CDH 版本,集成部署更加方便和易于管理