Hadoop——开源分布式计算平台
起源:
Hadoop 的框架最核心的设计就是:HDFS 和MapReduce。HDFS 为海量的数据提供了存储,则MapReduce 为海量的数据提供了计算。
特点:
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
1)高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
2)高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中
3)高效性。Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4)高容错性。Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5)低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop 是开源的,项目的软件成本因此会大大降低。
6)成熟的生态圈(开源、社区活跃参与者众多、设计分布式存储和计算的方方面面、已得到企业界验证)。
Hadoop 版本:
Hadoop 生态系统组成:
Hadoop 生态圈(组件构架):
整个Hadoop 家族由一下几个子项组成:
Hadoop Common:Hadoop 体系最底层的支撑组件,主要提供基础工具包和RPC 框架等,如:配置文件和日志操作等。
HDFS:是Hadoop 应用程序中主要的分布式存储系统(用于存储大数据的平台,提供一个可靠性的存储服务),HDFS 针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS 优化的则是对小批量大型文件的访问和存储。
MapReduce:是一个分布式运算程序的编程框架,是用户开发“基于hadoop 的数据分析应用”的核心框架,用以轻送编写处理海量(TB 级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点。
Pig:是一个用于大型数据分析的平台,包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig 应用的闪光特性在于他们的构架经得起大量的并行,也就是说让他们支撑起非常大的数据集。
ZooKeeper:是Google 的Chubby 一个开源的实现。它是一个针对大型分