Apache Spark现在是一个顶级项目

最新推荐文章于 2024-09-11 14:10:29 发布

danpu0978

最新推荐文章于 2024-09-11 14:10:29 发布

阅读量231

点赞数

文章标签：大数据 java hadoop 编程语言 spark

Apache软件基金会（ASF）高兴地宣布， Apache Spark从Apache Incubator毕业，成为一个顶级项目（TLP），这表明该项目的稳定性。

Apache Spark是一个开放源代码群集计算框架，用于快速，灵活地进行大规模数据分析。 Spark一直是大数据之乡的话题，预计2014年将是Spark的一年。

根据Spark网站主页，引擎在内存中运行程序的速度比Hadoop MapReduce快100倍，在磁盘上的速度快10倍。这就是Cloudera 将其集成到其Hadoop发行版 CDH（包括Apache Hadoop的Cloudera发行版）中的原因。 Spark的巨大成功不仅在于它是一个快速的引擎，还在于它自6月进入Apache孵化器以来的快速发展，其贡献来自25个组织的120多名开发人员。

来自加利福尼亚大学伯克利分校的Spark创造者创建了一家名为Databricks的公司，以将该技术商业化。根据Databricks首席执行官兼UC Berkeley教授Ion Stoica的说法，通过Spark项目，组织从大数据中获取见解变得更加容易。现在，创建了一个开源社区，这可以帮助加速Apache Spark的开发和采用。

根据“ Apache Spark成为顶级项目”一文，Sparks的功能之一是它可以在Hadoop 2.0 YARN上运行。此外， Shark的配套项目可以实现与Apache Hive语法兼容的SQL-on-Hadoop引擎，但声称与Spark相比原始MapReduce的性能提高了10x / 100x。

Spark的另一个功能是，它允许开发人员使用Java，Python或Scala编写应用程序。与Apache Hadoop集成后，Spark非常适合机器学习，交互式查询和流处理，并且可以从HDFS，HBase，Cassandra和任何Hadoop数据源读取。

雅虎通过Yahoo杰出建筑师Andrew Feng祝贺Spark成为Apache顶级项目。 Feng解释了Yahoo如何帮助发展Hadoop和包括Spark在内的相关大数据技术。由于Apache Hadoop是Yahoo大数据平台的基础，因此Yahoo为Spark的发展做出了重大贡献。

Apache Spark软件是根据Apache License v2.0发布的，并由该项目的积极参与者的自选团队监督。项目管理委员会（PMC）指导项目的日常运营，包括社区开发和产品发布。这里提供了文档和参与Apache Spark的方式。

就MapReduce而言， Spark似乎准备将the绳作为新Hadoop工作负载的主要处理框架，而MapReduce则逐渐淡出。 Spark似乎非常适合可能需要较低延迟查询，实时处理或对同一数据进行迭代计算的下一代大数据应用程序。从技术上讲，Spark是一个独立的项目，但始终设计为可与Hadoop分布式文件系统一起使用。

但是，仍然有很多MapReduce的工具（Spark还没有）（例如Pig和Cascading），并且MapReduce对于某些批处理作业仍然相当不错。 Cloudera联合创始人兼首席战略官Mike Olson解释说，即使Spark起飞，很多旧版MapReduce工作负载也不会很快消失。

实际上，3月19日至20日在纽约举行了一次结构数据会议，Ion Stoica将在该会议上发言，这是“结构数据奖”颁奖礼的一部分，Cloudera，Hortonworks和Pivotal的首席执行官将讨论大型产品的未来数据平台以及如何计划利用它们。