Map / Reduce有未来吗?

8w9jj Google的Jeffrey Dean和Sanjay Ghemawat 提交了专利申请,并发表了地图/简化文件   10年前(2004)。 根据WikiPedia Doug Cutting和Mike Cafarella的说法 ,一年后,在Hadoop上使用自己的Map / Reduce实现创建了Hadoop,这两种实现都是出于相同的目的-批量索引Web。

早在那时,Web就开始了其“ Web 2.0”过渡,页面变得更加动态,人们开始创建更多内容-因此,需要一种有效的方法来重新处理和构建Web索引,而映射/缩小就可以了。 Web索引非常适合地图/缩减,因为每个源(网页)的初始处理都完全独立于其他任何资源–即非常方便的地图阶段,您需要将结果合并以建立反向索引。 就是说,即使是谷歌的核心算法-著名的Pagerank也是迭代的(因此不太适合地图/缩小),更不用说随着互联网的发展和更新变得越来越频繁,地图/缩小还远远不够。 再次,谷歌(似乎一直领先行业数年)开始提出谷歌PercolatorGoogle Dremel之类的替代方案(两篇论文均于2010年发表,Percolator于同年推出,dremel自2006年以来已在Google中使用)。

所以现在是2014年,现在是我们其他人赶上Google并克服Map / Reduce的时候了,原因有很多:

  • 最终用户的期望(谁听到“大数据”但将其解释为“快速数据”)
  • 迭代问题(例如图算法)效率低下,因为您每次迭代都需要加载和重新加载数据
  • 连续摄取数据(以小批量或事件流的形式增加)–在其中加入现有数据可能会很昂贵
  • 实时问题–查询和处理。

在我看来,Map / Reduce是一个随时间而逝的想法–它不会在一天或一年之内消失,仍然有很多使用它的工作系统,而且替代方案也正在日趋成熟。 但是,我确实认为,如果您需要编写或实现可在map / reduce上构建的新内容,则应使用其他选项,或者至少要仔细考虑一下。

那么,这种变化将如何发生? 幸运的是,Hadoop最近采用了YARN(您可以在此处看到我的演示文稿),这为在不改变一切的情况下超越了map / reduce开启了可能性……尽管实际上,很多事情都会改变。 请注意,某些新选项确实具有迁移路径,并且我们仍然保留对Hadoopm中所有“大数据”的访问以及某些生态系统的扩展重用。

替换map / reduce的第一类工作是通过提供更灵活的批处理实际包含它。 毕竟说Map / reduce不相关,但这并不意味着批处理不相关。 这确实意味着需要更复杂的流程。 在TezSpark中有两个主要候选对象,其中Tez提供了一个不错的迁移路径,因为它将Pig / Hive的执行引擎替换为map / reduce,并且Spark通过结合批处理和流处理而提供了引人注目的产品(稍后会详细介绍)在单个引擎中。

有助于消除映射/减少的第二种工作量或处理能力是Hadoop上的MPP数据库。 就像上面提到的“灵活批处理”方法一样,它替代了过去使用map / reduce的功能-释放已经处理并存储在Hadoop中的数据。 这里的想法是双重的:

  • 提供快速查询功能* –通过使用专门的列式数据格式和数据库引擎作为守护程序部署在集群上
  • 提供丰富的查询功能–通过支持越来越多的SQL标准并通过分析功能(例如,通过MADlib )来丰富它。

在这个领域的努力包括来自Cloudera的Impala ,来自Pivotal的Hawq (本质上是HDFS的雏形),像Hadapt或甚至Actian之类的初创公司都试图通过最近宣布的Actian Vector来利用对ParAccel的收购。 Hive一方面处于中间位置,一方面依赖Tez,另一方面则依赖于矢量化和列格式(Orc)。

流处理是第三种有助于取消位图映射/减少的处理类型。 与前两种工作方式不同,这覆盖了地图/缩小功能无法覆盖的地面,甚至效率低下。 流处理是指在几秒钟或更短的时间内处理新数据(例如事件)的连续流并对其进行处理(丰富,聚合等)。 Hadoop领域的两个主要竞争者似乎是Spark StreamingStorm ,当然,还有其他一些商业和开源平台也可以处理这种类型的处理。

总结– Map / Reduce很棒。 它已经为我们(作为一个行业)服务了十年,但现在是时候继续前进,并带来我们在其他地方拥有的更强大的处理能力,以解决我们的大数据问题。

最后说明–在这篇文章中,我重点关注Hadoop,甚至认为还有其他几种平台和工具。 我认为,不管Hadoop是否是最好的平台,它都会成为事实上的大数据标准(还记得betamax与VHS吗?)。

最后要注意的一件事–如果您读到这里,并且您是居住在以色列的开发人员,而您恰好在找工作–我正在寻找另一位开发人员加入我的技术研究团队@ Amdocs。 如果您有兴趣,请给我留言:arnon.rotemgaloz在amdocs dot com或通过我的twitter / linkedin个人资料。

*特别是 关于分析查询–像Phoenix,IBM的BigSQL或Splice Machine这样的工作正在大量使用可操作的SQL,但这是另一回事了!

詹姆斯·米肯斯(James Mickens)在Monitorama 2014的演讲中发现了插图的想法–(顺便说一句,这是一个非常有趣的演示–快看吧)–哦,是的……还有小说!

翻译自: https://www.javacodegeeks.com/2014/06/is-there-a-future-for-mapreduce.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值