目录
2.1Hadoop简介
Hadoop是Apache软件基金会旗下的开源软件——分布式计算平台,由Java语言开发,但支持多种编程语言。
Hadoop两大核心:
HDFS(分布式文件系统)
解决了海量数据的存储,顺序读写
MapReduce(分布式并行编程框架)
解决了海量数据的处理
Hadoop的特点
高可靠性:冗余副本机制
高效性:成百上千的机器一起计算,集群处理
可扩展性:可以不断向集群中加入机器
成本低:低端普通pc机
Hadoop的应用
Hadoop版本的变化
Yarn:为上层的计算框架进行底层计算资源的调度功能
NN Federation:NameNode,名称节点做数据目录服务,设置多个名称节点,分区管理
HA:高可用性,对Name Node进行热备份,避免单点失效
2.2Hadoop项目结构
Tez
运行在Yarn之