hadoop开源项目_转变Hadoop的三个开源项目

Hadoop通过开源项目如蜂巢、Spark和Presto变得更容易使用和分析大数据。蜂巢利用HiveQL简化SQL查询,Spark提供快速批处理和流处理,而Presto则提供了高速的交互式查询能力。这些工具显著改善了Hadoop的分析性能,降低了使用门槛。
摘要由CSDN通过智能技术生成

hadoop开源项目

Hadoop是一个具有有趣名字的开源软件框架,它通过允许组织存储,管理和分析大量数据以获得可行的见解和竞争优势,已成为组织的游戏规则改变者。

但这并非总是如此。

最初,Hadoop实施需要熟练的工程师和数据科学家团队,这使得Hadoop对于许多组织而言过于昂贵且繁琐。 现在,由于有许多开源项目,使用Hadoop进行大数据分析已变得更加负担得起且成为主流。

下面就来看看在三种开源项目-如何配置单元 星火 普雷斯托 -具备改变了的Hadoop生态系统。

蜂巢

Hadoop的一个早期问题是,虽然它非常适合存储和管理海量数据,但要分析数据以获取见识却很困难。 只有训练有素的数据科学家才能编写复杂的“ Java Map-Reduce”作业,才能释放Hadoop的分析功能。 为了解决这个问题,Facebook的两位数据科学家Ashish Suchoo和Joydeep Sen Sarma(后来又找到了名为Qubole的基于云的Hadoop大数据分析服务)于2008年创建了Apache Hive。

利用结构化查询语言(SQL)的易用性,该语言需要较少的培训并且被数据工程师广泛使用,Hive使用一种称为HiveQL的语言将类似SQL的查询自动转换为在Hadoop上执行的MapReduce作业。 由于SQL是学校教授的首选数据语言,并且在行业中使用,因此将SQL置于Hadoop之上的Hive通过使其强大的分析功能更易于为个人和组织(不仅是开发人员)使用而转变了Hadoop。 Hive最适合用于汇总,查询和分析时间不是很重要的大型结构化数据集。

火花

虽然Hive on MapReduce在汇总,查询和分析大量结构化数据方面非常有效,但是Hadoop在MapReduce上启用的计算速度却很慢而且很有限,这正是Spark的用处。2009年由加州大学伯克利分校的AMPLab开发,2010年开源,Apache Spark是功能强大的Hadoop数据处理引擎,旨在在创纪录的时间内处理批处理和流式工作负载。 实际上,在Apache Hadoop 2.0上, Apache Spark在程序上的运行速度比MapReduce快100倍,磁盘上快10倍。

用户的优势在于,Spark不仅支持诸如SQL查询,流数据之类的操作以及诸如机器学习和图形算法之类的复杂分析,而且还允许将这些多种功能无缝地组合到单个工作流程中。 此外,Spark与Hadoop的分布式文件系统(HDFS),HBase和任何Hadoop存储系统100%兼容,这意味着组织中的所有现有数据均可在Spark中立即使用。 Spark具有统一大数据分析的能力,从而降低了组织构建单独的处理系统来满足其各种计算需求的需求。

普雷斯托

面对在超过250 PB的庞大数据仓库中进行快速交互分析并计数的任务,Facebook的工程师开发了自己的查询机Presto 与Spark既在内存中又在磁盘上运行程序的Spark不同,Presto仅在内存中运行。 此功能使Presto可以在数百毫秒内在Hadoop上运行简单查询,而更复杂的查询仅需几分钟。 相比之下,使用依赖MapReduce的Hive扫描整个数据集可能需要几分钟到几小时。 还显示Presto在CPU上的效率是Hive的七倍。 Plus Presto可以将来自多个来源的数据组合到一个查询中,从而可以对整个组织进行分析。

如今,Presto可以作为开放源代码的分布式SQL查询解决方案使用,组织可以使用该查询解决方案对千兆字节至PB级的数据源运行交互式分析查询。 Presto具有扩展到Facebook之类的组织规模的能力,是一个功能强大的查询引擎,它已经改变了Hadoop生态系统,并且可能对组织和整个行业都具有变革性。

大数据每天都在增长。 当组织寻求新的更好的方式来利用有价值的数据时,他们将不再依赖Hadoop和MapReduce进行批处理,而更多地依赖诸如Hive,Spark和Presto之类的开源工具来满足未来的大数据需求。

阿帕奇
鹅毛笔

本文是由Jason Hibbets协调的Apache Quill专栏的一部分。 通过open@opensource.com与我们联系,在Apache Software Foundation的项目内分享您的成功案例和开源更新

翻译自: https://opensource.com/business/15/3/three-open-source-projects-transform-hadoop

hadoop开源项目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值