1、定义
分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
2、HDFS实现目标
(1)兼容廉价的硬件设备
(2)实现流数据读写
(3)支持大数据集
(4)支持简单的文件模型
(5)强大的跨平台特性
3、HDFS自身的局限性
(1)不适合低延迟数据访问
即想要读取某个文件时,需要读取大量文件,再从中进行筛选,HDFS无法直接精确读到某个文件,HDFS无法满足实时性处理需求
(2)无法高效存储大量小文件
大量小文件会导致内存的索引结构非常庞大,搜索起来非常困难
(3)不支持多用户写入及任意修改文件
4、HDFS相关概念
(1)块
--整个HDFS当中最核心的概念
--与普通文件系统的相比,HDFS的块要大很多,通常为64MB,128 MB,可以进行最小化寻址开销
--块的大小
块太大,会影响并行处理速度;
块太小,会加重NN(NameNodem名称节点)的负担,导致启动过多的Map任务
--块的好处:
i.支持大规模文件存储
文件大小不受单个节点存储容量限制
ii.简化系统设计
容易计算节点存储块数,方便元数据管理
iii.适合数据备份
冗余存储,提高容错性和可用性