在hadoop整个框架中hdfs是基础,hdfs提供海量的非结构化的数据存储,并提供了文件的创建删除读取和写入等API,对开发者而言只需操作一个目录构成的树形结构。
hdfs在设计之初考虑到了以下几个方面:
1,hdfs将采用大量稳定性差的廉价pc来做为文件存储设备,所以pc发生死机或硬盘故障的几率极高,应看作是常态,所以hdfs应该提供数据多备份,自动检测节点存活,和故障机器的自动修复
2,hdfs存储的大多是大文件,所以针对大文件的读写会作出优化
3,对于写入数据来说,系统会有很多追加操作,而很少会有随机读写
4,对于读取数据来说,大多数的操作是顺序读,很少有随机读