Hadoop的介绍以及发展历史

程序员学习圈

已于 2022-02-23 16:00:46 修改

阅读量2.5k

点赞数

分类专栏： # Hadoop 文章标签： hadoop mapreduce big data

于 2018-05-15 08:52:54 首次发布

本文链接：https://blog.csdn.net/Luomingkui1109/article/details/80317890

版权

36 篇文章 1 订阅

订阅专栏

1.Hadoop介绍

狭义上来说，hadoop就是单独指代hadoop这个软件，

广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件

Hadoop是大数据的分布式存储和计算平台。它不是指具体一个框架或者组件，它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。

Hadoop1.x中包括两个核心组件：MapReduce和HDFS，其中HDFS负责将海量数据进行分布式存储，而MapReduce负责提供对数据的计算结果的汇总。

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。

2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop

Hadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。

Hadoop的成长过程：Lucene–>Nutch—>Hadoop

总结起来，Hadoop起源于Google的三大论文

演变关系

扩容能力（Scalable）：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计个节点中。
成本低（Economical）：Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。
高效率（Efficient）：通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。
可靠性（Rellable）：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。