Hadoop的HDFS以及YARN简介
Hadoop分布式系统简介
-
Hadoop是分布式的系统架构,是Apache基金会顶级金牌项目
-
来源:三大论文GFS、MapReduce、 Bigtable
-
创始人:Doug cutting
Hadoop分布式系统重要部分
- HDFS
- YARN
- MapReduce
- Zookeeper
- Hive
- Hbase
- …
HDFS(分布式存储系统)
- 用途:解决大数据的存储问题
主要优缺点
- 优点:
- 分布式的特性
- 适合大数据处理
- 百万规模以上的文件数量
- 适合批处理
- 移动计算而非数据(MR),数据位置暴露给计算框架
- 高可靠性,高容错性
- 缺点
- 低延迟高数据吞吐访问问题
- 小文件读取占大量内存
- 不支持文件修改
功能模块
数据存储单元(block)
文件被切分成固定大小的数据块block
默认数据块大小为128MB(Hadoop2.x)
数据大小不足一个block存成一个block
block为逻辑概念&