- hadoop生态系统特点
- hadoop介绍(内核)
- hadoop生态系统
- hadoop系统版本衍化
1. hadoop生态系统特点
- 源代码开源(免费)
- 社区活跃、参与者众多
- 涉及分布式存储和计算的方方面面
- 已得到企业界验证
hadoop介绍(内核)
hadoop1.0与2.0
hadoop1
mapreduce
hdfs
hadoop2
mapreduce + other
yarn
hdfs
分布式存储系统hfds(hadoop distributed file system)
分布式存储系统
提供了高可靠性、高扩展性和高吞吐率的数据存储服务
资源管理系统Yarn(yet another resource negotiator)
负责集群资源统一管理调度
分布式计算框架mapreduce
分布式计算框架
具有易于编程、高容错性和高扩展性等优点
概述
mapreduce 分布式计算屋
yarn 集群资源管理层
hdfs
hadoop构成
源自于google 的gfs论文
发表于200310
hdfs是gfs copy版本
hdfs特点
良好的扩展性
高容错性
适合PB级以上的海量数据的存储
hdfs
基本原理
将文件切分成等大的数据块、存储到多台机器上
将数据切分、容错、负载均衡等功能透明化
可将hdfs看成一个容量巨大、具有高容错性的磁盘
应用场景r
海量数据的可靠性存储
数据归档
hadoop组成图
yarn
yarn是什么
hadop2新增系统
负责集群资源管理和调度
使得多种计算框架可以运行在一个集群中
yarn特点
良好的扩展性、高可用性
对多种类型的应用程序进行统一管理和调度
自带了多种用户调度器
适合共享