spark 示例
当我对Scala(Spark的编写语言)感兴趣时,我在2013年底首次听说了Spark。 一段时间后,我做了一个有趣的数据科学项目,试图预测泰坦尼克号上的生存情况 。 事实证明,这是进一步介绍Spark概念和编程的好方法。 我强烈建议有志向的Spark开发人员寻找入门的地方。
今天,Spark已被亚马逊,eBay和Yahoo!等主要公司采用。 许多组织在具有数千个节点的群集上运行Spark。 根据Spark FAQ,最大的已知群集具有8000多个节点。 确实,Spark是一项值得关注和学习的技术。
本文提供了Spark的介绍,包括用例和示例。 它包含来自Apache Spark网站以及《 Learning Spark –闪电般的快速大数据分析》一书的信息。
一个介绍
Spark是一个Apache项目,被宣传为“闪电般的快速集群计算”。 它具有蓬勃发展的开源社区,并且是当前最活跃的Apache项目。
Spark提供了更快,更通用的数据处理平台。 使用Spark,您可以在内存上运行程序的速度比Hadoop快100倍,在磁盘上的速度快10倍。 去年,Spark接手了Hadoop,使100 TB Daytona GraySort竞赛的机器速度提高了三倍,而机器数量却是原来的十分之一,而且它也成为了对PB级进行分类的最快的开源引擎。
当您拥有80多个高级操作员时,Spark还使更快地编写代码成为可能。 为了演示这一点,让我们看一下“ Hello World!”。 BigData:字数统计示例。 用Java编写的MapReduce大约有50行代码,而在Spark(和Scala)中,您可以像下面这样简单地完成它:
sparkContext.textFile("hdfs://...")
.flatMap(line => line.split(" "))
.map(word => (word, 1)).reduceByKey(_ + _)
.saveAsTextFile("hdfs://...")