spark 示例_带有示例和用例的Apache Spark简介

最新推荐文章于 2024-03-20 16:22:16 发布

danpu0978

最新推荐文章于 2024-03-20 16:22:16 发布

阅读量287

点赞数

文章标签：分布式大数据编程语言 hadoop python

原文链接：https://www.javacodegeeks.com/2015/10/introduction-to-apache-spark-with-examples-and-use-cases.html

版权

spark 示例

当我对Scala（Spark的编写语言）感兴趣时，我在2013年底首次听说了Spark。一段时间后，我做了一个有趣的数据科学项目，试图预测泰坦尼克号上的生存情况。事实证明，这是进一步介绍Spark概念和编程的好方法。我强烈建议有志向的Spark开发人员寻找入门的地方。

今天，Spark已被亚马逊，eBay和Yahoo!等主要公司采用。许多组织在具有数千个节点的群集上运行Spark。根据Spark FAQ，最大的已知群集具有8000多个节点。确实，Spark是一项值得关注和学习的技术。

本文提供了Spark的介绍，包括用例和示例。它包含来自Apache Spark网站以及《 Learning Spark –闪电般的快速大数据分析》一书的信息。

一个介绍

Spark是一个Apache项目，被宣传为“闪电般的快速集群计算”。它具有蓬勃发展的开源社区，并且是当前最活跃的Apache项目。

Spark提供了更快，更通用的数据处理平台。使用Spark，您可以在内存上运行程序的速度比Hadoop快100倍，在磁盘上的速度快10倍。去年，Spark接手了Hadoop，使100 TB Daytona GraySort竞赛的机器速度提高了三倍，而机器数量却是原来的十分之一，而且它也成为了对PB级进行分类的最快的开源引擎。

当您拥有80多个高级操作员时，Spark还使更快地编写代码成为可能。为了演示这一点，让我们看一下“ Hello World！”。 BigData：字数统计示例。用Java编写的MapReduce大约有50行代码，而在Spark（和Scala）中，您可以像下面这样简单地完成它：

sparkContext.textFile("hdfs://...")
            .flatMap(line => line.split(" "))
            .map(word => (word, 1)).reduceByKey(_ + _)
            .saveAsTextFile("hdfs://...")

最低0.47元/天解锁文章

danpu0978

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 示例_带有示例和用例的Apache Spark简介

spark 示例当我对Scala（Spark的编写语言）感兴趣时，我在2013年底首次听说了Spark。一段时间后，我做了一个有趣的数据科学项目，试图预测泰坦尼克号上的生存情况。事实证明，这是进一步介绍Spark概念和编程的好方法。我强烈建议有志向的Spark开发人员寻找入门的地方。今天，Spark已被亚马逊，eBay和Yahoo!等主要公司采用。许多组织在具有数千个节点的...
复制链接

扫一扫