Hadoop的过去、现在和未来

原创 2016年08月30日 09:52:35

Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟。不过,在这个星球上,你找不到拥有11年Hadoop经验的人。因为目前在Hadoop领域经验最丰富的人是Doug Cutting,他在Hadoop方面拥有的经验是10年零7个月。而这位Doug Cutting正是Hadoop之父,Cloudera公司首席架构师。


作为处理海量数据最常用的方法,Hadoop的核心是Map和Reduce,也就是将一个庞大的任务进行分解,然后再将结果进行汇总。但经过10年发展,Hadoop的功能早已不是MapReduce这么简单。今天的Hadoop是分布式计算所涉及的计算、存储、文件系统、网络、安全、负载均衡、管理等一系列软件方法的合集。也正是由于其完整性和成熟度,今天的Hadoop虽然面临Spark等新兴技术的竞争,却仍是分布式计算领域不可或缺的基础和前提。

作为一个开源项目,Hadoop目前仍在告诉发展、快速更新;作为开源软件服务的成功践行者,Cloudera的Hadoop发行版本正在成为越来越多企业在部署分布式计算系统时的首选。

开源与商业,过去和未来;身为Hadoop之父、Cloudera公司首席架构师、Apache基金会前主席,Doug Cutting确实有话要说。

Hadoop成功的基础

Hadoop无疑是Apache基金会中最引人注目和最庞大的顶级项目之一。由于Hadoop定义了分布式计算的方方面面,因此日常的代码提交量也非常巨大。而在海量的代码见决定Hadoop未来走向的则是一个接近百人的评审委员会。

Doug Cutting表示:评审委员会的成员来自各个领域,他们有IT企业中的技术达人、有相关学科的大学教授、有应用专家、更有单纯的技术爱好者。而在这个庞大的评审委员会中,所有成员均拥有“一票否决权”。虽然委员们各自有不同的背景甚至公司利益,但在委员会中,所有人的投票都是相当慎重的。投票所考虑的核心因素只有一个,那就是Hadoop未来的发展。而任何否决票的出现也必须给出技术上的合理解释。

可以说,Hadoop与Apache基金会的其他项目一样,是一个“人人为我、我为人人”的开放环境。

由于有越来越多Cloudera这样的开源企业源源不断的将自己的创新和Debug回馈给整个社区以及优秀的委员会机制,Hadoop在今天仍保持着相当旺盛的生命力。

总结Hadoop过去的成功无非两点:一是从技术上开创了分布式计算时代,二是Apache基金会和Hadoop项目开放、合作、共享的管理理念。

Hadoop如何保持成功

任何一项技术都有其自身的发展路径。而作为一项非常有潜力的技术,Hadoop的未来发展的根基仍然要依靠广泛的应用基础。

Cloudera是目前众多Hadoop发行版中最流行的一个,而Cloudera回馈社区的方式也并不只是简单的贡献代码。

日前,Cloudera与清华大学联合发布BASE (Big Analytics Skill Enablement)倡议,旨在帮助清华大学数据科学研究院培养更多大数据分析专业人才,以填补国内大数据领域人才匮乏的现状。

换句话说,Cloudera将帮助清华大学数据科学研究院培养更多Hadoop使用者和开发者。这样做一方面能够缓解国内大数据人才紧缺的现状,让大数据技术能够进入更多企业和行业;另一方面也为Hadoop项目在未来能够持续发展创造条件,毕竟对于一向技术来说,有人用才有未来。

虽然清华大学是国内首家与Cloudera合作的高效,但从全球来看,Cloudera与教育界的合作已经开展多年。Doug Cutting表示:Cloudera已经与美国、欧洲、新加坡以及亚洲其他国家的高校和研究机构开展了广泛的合作,为他们提供全套免费课程,帮助大学生和研究人员能够更好的使用大数据技术。

显然,Cloudera所执行的是一项相当长远的计划,这也说明Cloudera对Hadoop技术未来发展的信心。

面对竞争,Hadoop的未来是怎样的?

与商业领域一样,技术同样面临竞争。在很多人看来,Hadoop目前最大的竞争对手正是非常火爆的Spark。

对此,Doug Cutting表示:Spark的确在MapReduce方面相比Hadoop拥有更大的性能优势。但Hadoop本身还包括分布式文件系统和任务调度、规划等众多功能;而这些则是Spark所没有的。

作为开源技术,Hadoop和Spark都是模块化开发的。这也就意味着他们是可以相互融合,一起使用的。

在未来,我们很可能看到Spark取代了Hadoop中的MapReduce模块,但分布式计算系统中的存储和调度等功能仍需要Hadoop来实现。

换句话说,Hadoop与Spark之争实际是个伪命题,同样是大数据分析技术,他们的未来应该是融合和协作。

大数据的故事才刚刚开始

从行业整体的发展来看,人类只是刚刚意识到了大数据的重要性,而大数据技术本身的发展和完善仍需要相当长的时间。而对于像Cloudera这样在大数据领域取得先发优势的企业来说,无论是大数据还是开源技术,故事才知是刚刚开始。未来仍旧不可估量。


Hadoop的过去、现在和未来

Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟。不过,在这个星球上,你找不到拥有11年Hadoop经验的人。因为目前在Hadoo...
  • meiseeny
  • meiseeny
  • 2017年05月17日 15:25
  • 345

阿里的Hadoop之路:Hadoop的过去、现在和未来

阿里的Hadoop之路:Hadoop的过去、现在和未来
  • dajiangtai007
  • dajiangtai007
  • 2017年04月01日 16:32
  • 2625

.net的过去、现在和未来

.NET Framework发展状况: 一、2000-11  发行第一个版本 .NET Framework 1.0 Beta  NET Framework现主要由以下几部分组成: (1).包括五...
  • hongwei_23
  • hongwei_23
  • 2014年12月04日 09:32
  • 311

API的过去,现在与未来

API的过去,现在与未来 作者:王下邀月熊 链接:https://zhuanlan.zhihu.com/p/24681051 随着微服务架构的流行,貌似我们已经聊了很多关于现在的API...
  • huangshulang1234
  • huangshulang1234
  • 2017年12月14日 09:24
  • 54

从工业角度谈推荐系统的过去、现在和未来(二)

一、推荐问题的理解1.传统定义: 基于用户过去的行为习惯、用户间的关系、 item间的相似度、上下文等信息来估计一个可以自动预测user对item的喜欢程度的效用函数(utility func...
  • u013527419
  • u013527419
  • 2017年03月24日 15:54
  • 599

编程语言的过去、现在和未来

两种动力在推动编程语言向前发展,一是各种国际组织,二是商业公司。对于形成语言规范来说,它们或许是各占一半,但以程序员选择哪种语言,那肯定是商业公司占主导地位。 一、微软 没有之一,微软是迄今为...
  • shuyededenghou
  • shuyededenghou
  • 2017年03月18日 10:29
  • 122

协程的过去,现在,未来

计算机科学是一门应用科学,几乎所有概念都是为了理解或解决实际问题而生的。协程 (Coroutine) 的出现也不例外。协程的概念,最早可以追溯到写作 COBOL 语言编译器中的技术难题。 从磁带...
  • sfdazsdf
  • sfdazsdf
  • 2015年08月07日 17:22
  • 638

细说分布式数据库的过去、现在与未来

随着大数据这个概念的兴起以及真实需求在各个行业的落地,很多人都热衷于讨论分布式数据库,今天就这个话题,主要分为三部分:第一部分讲一下分布式数据库的过去和现状,希望大家能对这个领域有一个全面的了解;第二...
  • luyaran
  • luyaran
  • 2017年05月02日 16:14
  • 369

水晶苍蝇拍:过去,现在,未来

每一个纠结的现在,都来自一个草率的过去,并将走向一个遗憾的未来。人的行为和思维是有惯性的,要想彻底改变谈何容易,在错误的道路上时间越久越积重难返。所以,从一开始就深思熟虑的选择一个正确的方向,才是真正...
  • ffm83
  • ffm83
  • 2015年03月10日 17:22
  • 943

编程语言的过去、现在和未来

两种动力在推动编程语言向前发展,一是各种国际组织,二是商业公司。对于形成语言规范来说,它们或许是各占一半,但以程序员选择哪种语言,那肯定是商业公司占主导地位。 一、微软 没有之一,微软是迄今为止最伟大...
  • ancientcc
  • ancientcc
  • 2014年12月15日 22:26
  • 284
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop的过去、现在和未来
举报原因:
原因补充:

(最多只允许输入30个字)