大数据编年史

最新推荐文章于 2024-09-05 03:40:02 发布

桥路丶

最新推荐文章于 2024-09-05 03:40:02 发布

阅读量390

点赞数

分类专栏：大数据文章标签：大数据 hadoop 分布式

本文链接：https://blog.csdn.net/qq_33876553/article/details/112058846

版权

大数据专栏收录该内容

44 篇文章 7 订阅

订阅专栏

不了解大数据的历史，就没有真正掌握大数据。接下来，一起看一下开源大数据的发展历程，看它是如何顺应时代而诞生的。

大数据初期

首先在2002年的时候，Doug Cutting、Mike Cafarella创建了开源网页爬虫项目Nutch，而爬虫的特征就是源源不断的爬取数据，那这样就急需一种解决方案来存储这些海量的数据，并且可以随着数据量的增长而扩展。

恰好在第二年（2003年），Google发表了Google File System论文，论述的就是一种新型的分布式文件系统，可以满足海量数据的存储。

于是2004年，Doug Cutting、Mike Cafarella在Nutch中实现了GFS的功能，这就是著名的HDFS（Hadoop Distributed File System）的前身。

但数据存储起来之后，只有经过处理运算，才能发挥其应有的作用。在2004年07月，Google发表了MapReduce论文，论述了如何在分布式文件系统GFS上进行分布式运算。

依然是第二年，Mike Cafarella在Nutch中实现了MapReduce的功能。

至此，其实大数据就已经初具成型了，因为海量数据的存储有了，在数据存储之上的分布式运算也解决了，接下来就等待这两种技术的逐渐成熟。之后，有一个公司，为开源大数据打了一针强心剂，引领了大数据的发展。

2006年，Doug Cutting加入Yahoo，将Hadoop（HDFS+MapReduce）发展成一个可在网络上运行的系统；在Yahoo的推动下，Apache Hadoop项目正式启动，并支持MapReduce和HDFS独立发展。同年，Yahoo的网格计算团队采用Hadoop技术；而且Yahoo建立了第一个用于开发的Hadoop集群。此时，Yahoo已经开始将Hadoop技术在生产环境中进行淬炼，逐渐将它推向成熟。

2006年04月，第一个Apache Hadoop版本发布，标志着Hadoop正式走进开发者的视野。

2006年11月，Google发表了Bigtable论文，阐述了如何在分布式文件系统上，实现NoSQL数据库。后来Google的GFS、MapReduce、Bigtable论文也被称为Google的三驾马车，它极大的推动了开源大数据的进程。但其实仔细想想，在大数据未开源之前，Google才是真正的大数据先行者。

发展时期

Yahoo将Hadoop大数据技术推向社区之后，便逐渐将Hadoop技术推向正式的生产环境。

2007年04月，Yahoo Hadoop集群发展成两个1000个节点的集群；

2008年01月，Hadoop成为Apache的顶级项目；

2008年02月，Yahoo运行了世界最大的Hadoop应用，宣布其搜索引擎产品部署在一个拥有一万个内核的Hadoop集群上。这也意味着，Hadoop技术已经逐渐稳定并走向成熟。

在此之后，2008年到2012年，是Hadoop生态圈百花齐放的景象，围绕着分布存储HDFS、分布式计算MapReduce，各种在海量数据规模下的解决方案层出不穷。开源大数据的生态得到了极大的发展。

在此期间，也就是2008年08月，第一个Hadoop商业化公司Cloudera成立。既然Hadoop是开源产品，那为何会有商业化公司成立？商业化就意味着付费。其实是因为Hadoop各个框架是由不同开发组去维护的，并不是统一开发的，所以这些框架之间的整合会有一些问题（如依赖冲突）；而且大数据集群环境在运维过程中，会比较麻烦；而这些痛点，也就是Cloudera的商机。

它在2009年推出的Hadoop发行版CDH，至今依然是Hadoop学习时，环境安装最好的推荐，只需要安装同一个CDH版本，大数据框架之间的整合便不会存在问题。