1、检测和快速恢复硬件故障。
硬件故障是常见的问题,整个HDFS系统由数百台或数千台存储着数据文件的服务器组成,而如此之多的服务器也意味着高故障率,因此,故障的检测和自动快速恢复是HDFS的一个核心目标。
2、流式的数据访问。
HDFS使应用程序能流式地访问它们的数据集(DS),HDFS被设计成适合进行批量处理,二部是用户交互式处理,所以它重视数据的吞吐量,而不是数据访问的反应速度。
3、简化一致性模型
大部分的HDFS程序操作文件时需要一次写入,多次读取。一个文件一旦经过创建、写入、关闭之后就不需要修改了,从而简化了数据一致性问题和高吞吐量的数据访问问题。
4、通信协议
所有的通信协议都在TCP/IP协议之上。一个客户端和明确配置了端口的名称节点(NameNode)建立连接之后,它和名称节点(NameNode)的协议便是客户端协议(Client Protocal)、数据节点(Data Node)和名字节点之间则用数据节点协议(DataNode Protocal)。