1、Hadoop的特性
Hadoop是一个能对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。
·高可靠性
采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。
·高效性
作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效的处 理PB级数据。
·高可扩展性
Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算 机节点上。
·高容错性
采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
·成本低
Hadoop采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC搭建Hadoop运 行环境。
·运行在Linux平台上
Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。
·支持多种编程语言
Hadoop上的应用程序也可以使用其他语言编写,如C++。
2、Hadoop的版本
Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本,其中,0.20.x最后演化成1.0.x,变成了稳定版。而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本。他们完全不同于Hadoop1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统。