- 硬件错误是常态。因此需要冗余
由于各种可能硬盘错误等,需要对数据进行备份,所以需要冗余,在运行过程中需要备份。冗余是HDFS额外嵌入的功能,而不是额外的需求。
- 流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理
- 大规模数据集
- 简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即是文件一经写入,关闭,就再也不能修改
针对大量读很少写这种模型,文件一经写入不能修改,能多次读取。如果要修改,只能删除,再重新写入成为一个新的文件。
- 程序采用“数据就近”原则分配节点执行