Hadoop
第二部份 Hadoop3.x之HDFS
一、HDFS概述
1.1 概念
HDFS(Hadoop Distributed File System)是一个分布式的文件系统,通过目录树定位文件。
所谓目录树,就是类似Linux的文件结构,从根目录往下产生的分支结构。
所谓分布式,是指实际存放的位置可能分布在于多个服务器上。
HDFS的应用场景主要在于海量的数据存储,适于一次写入,多次读取(smr)。
1.2 优缺点
- 优点
- 高容错
- 适合大数据存储
- 可搭建廉价机集群
- 缺点
- 不适合低延时
- 不适合大量小文件存储
通过NameNode存储文件目录和块信息,NameNode大小128G,每条信息150字节,最大存储约9亿个。 - 不支持并发写入、文件随机修改。
1.3 HDFS的组成
1.4 HDFS的块
- HDFS中的文件在物理上分块存储,块大小可通过配置参数dfs.blocksize规定,默认为128M
- HDFS的块并不是只能存储一个文件,因此文件最小占用空间大小并不是块大小
- 寻址时间是找到目标块的时间,块过小会增加寻址时间
- 寻址时间为传输时间的1%比较合适
- 如寻址时间为10msÿ