大数据编年史

不了解大数据的历史,就没有真正掌握大数据。接下来,一起看一下开源大数据的发展历程,看它是如何顺应时代而诞生的。

大数据初期

首先在2002年的时候,Doug Cutting、Mike Cafarella创建了开源网页爬虫项目Nutch,而爬虫的特征就是源源不断的爬取数据,那这样就急需一种解决方案来存储这些海量的数据,并且可以随着数据量的增长而扩展。

恰好在第二年(2003年),Google发表了Google File System论文,论述的就是一种新型的分布式文件系统,可以满足海量数据的存储。

于是2004年,Doug Cutting、Mike Cafarella在Nutch中实现了GFS的功能,这就是著名的HDFS(Hadoop Distributed File System)的前身。

但数据存储起来之后,只有经过处理运算,才能发挥其应有的作用。在2004年07月,Google发表了MapReduce论文,论述了如何在分布式文件系统GFS上进行分布式运算。

依然是第二年,Mike Cafarella在Nutch中实现了MapReduce的功能。

至此,其实大数据就已经初具成型了,因为海量数据的存储有了,在数据存储之上的分布式运算也解决了,接下来就等待这两种技术的逐渐成熟。之后,有一个公司,为开源大数据打了一针强心剂,引领了大数据的发展。

2006年,Doug Cutting加入Yahoo,将Hadoop(HDFS+MapReduce)发展成一个可在网络上运行的系统;在Yahoo的推动下,Apache Hadoop项目正式启动,并支持MapReduce和HDFS独立发展。同年,Yahoo的网格计算团队采用Hadoop技术;而且Yahoo建立了第一个用于开发的Hadoop集群。此时,Yahoo已经开始将Hadoop技术在生产环境中进行淬炼,逐渐将它推向成熟。

2006年04月,第一个Apache Hadoop版本发布,标志着Hadoop正式走进开发者的视野。

2006年11月,Google发表了Bigtable论文,阐述了如何在分布式文件系统上,实现NoSQL数据库。后来Google的GFS、MapReduce、Bigtable论文也被称为Google的三驾马车,它极大的推动了开源大数据的进程。但其实仔细想想,在大数据未开源之前,Google才是真正的大数据先行者。

发展时期

Yahoo将Hadoop大数据技术推向社区之后,便逐渐将Hadoop技术推向正式的生产环境。

2007年04月,Yahoo Hadoop集群发展成两个1000个节点的集群;

2008年01月,Hadoop成为Apache的顶级项目;

2008年02月,Yahoo运行了世界最大的Hadoop应用,宣布其搜索引擎产品部署在一个拥有一万个内核的Hadoop集群上。这也意味着,Hadoop技术已经逐渐稳定并走向成熟。

在此之后,2008年到2012年,是Hadoop生态圈百花齐放的景象,围绕着分布存储HDFS、分布式计算MapReduce,各种在海量数据规模下的解决方案层出不穷。开源大数据的生态得到了极大的发展。

在此期间,也就是2008年08月,第一个Hadoop商业化公司Cloudera成立。既然Hadoop是开源产品,那为何会有商业化公司成立?商业化就意味着付费。其实是因为Hadoop各个框架是由不同开发组去维护的,并不是统一开发的,所以这些框架之间的整合会有一些问题(如依赖冲突);而且大数据集群环境在运维过程中,会比较麻烦;而这些痛点,也就是Cloudera的商机。

它在2009年推出的Hadoop发行版CDH,至今依然是Hadoop学习时,环境安装最好的推荐,只需要安装同一个CDH版本,大数据框架之间的整合便不会存在问题。

成熟期

在Hadoop诞生时期,因为硬件成本的原因,内存造价很高;所以分布式处理框架MapReduce在设计时,为了节约内存,会与磁盘进行大量的交互。但随着硬件成本的降低,这种设计反而成为限制分布式处理速度的瓶颈。

于是在2014年,Spark诞生了,它基于内存设计,大量使用内存空间,使得分布式处理的速度得到了极大的提升,成为Hadoop的缺省计算引擎;意味着分布式计算框架,可以选择MapReduce或者Spark。

而分布式存储HDFS也存在一些诟病,主要是设计陈旧、延时较高。但其实在大数据处理领域,离线批处理场景更重视处理速度和吞吐;而实时流处理场景,最终的数据结果也会存储到分布式数据库中(如HBase),并不直接存储在分布式文件系统中,而建立在分布式文件系统上的分布式数据库的延迟一般都很低。

在2015年10月,Cloudera公布了继HBase以后的第一个Hadoop原生存储替代方案——Kudu,它也是主要依托于内存,提升了分布式文件系统的速度,并提供了很多优秀的功能。

现在,大数据依然在随着时代继续发展,未来的大数据是什么样的,请拭目以待吧。

结束语

如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。

我所有的大数据技术内容也会优先发布到公众号中。如果对某些大数据技术有兴趣,但没有充足的时间,在群里提出,我为大家安排分享。

公众号自取:

公众号

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

桥路丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值