Hadoop HDFS分布式文件系统具有如下特点:

1.非常适合PB级以上海量数据的存储和处理,已在Yahoo、亚马逊、Facebook、百度、淘宝等海量数据处理平台上得到了广泛验证。

2.系统可以扩展性高,只需要简单添加服务器数量,即可实现存储容量和计算能力的线性增长。

3.数据冗余度高,缺省每份数据在3台服务器上保留副本。

4.适合/流式访问(Streaming access),即一次写入,多次读取,数据写入后极少修改。

5.除了数据存储能力外,与HDFS共生的MapReduce分布式计算框架大大简化了分布式计算程序的编程难度,可快速编写分布式计算程序,充分利用各存储节点的CPU计算资源。