spark 示例_带有示例和用例的Apache Spark简介

spark 示例

当我对Scala(Spark的编写语言)感兴趣时,我在2013年底首次听说了Spark。 一段时间后,我做了一个有趣的数据科学项目,试图预测泰坦尼克号上的生存情况 。 事实证明,这是进一步介绍Spark概念和编程的好方法。 我强烈建议有志向的Spark开发人员寻找入门的地方。

今天,Spark已被亚马逊,eBay和Yahoo!等主要公司采用。 许多组织在具有数千个节点的群集上运行Spark。 根据Spark FAQ,最大的已知群集具有8000多个节点。 确实,Spark是一项值得关注和学习的技术。

火花博客简介Img1

本文提供了Spark的介绍,包括用例和示例。 它包含来自Apache Spark网站以及《 Learning Spark –闪电般的快速大数据分析》一书的信息。

一个介绍

Spark是一个Apache项目,被宣传为“闪电般的快速集群计算”。 它具有蓬勃发展的开源社区,并且是当前最活跃的Apache项目。

Spark提供了更快,更通用的数据处理平台。 使用Spark,您可以在内存上运行程序的速度比Hadoop快100倍,在磁盘上的速度快10倍。 去年,Spark接手了Hadoop,使100 TB Daytona GraySort竞赛的机器速度提高了三倍,而机器数量却是原来的十分之一,而且它也成为了对PB级进行分类最快的开源引擎。

当您拥有80多个高级操作员时,Spark还使更快地编写代码成为可能。 为了演示这一点,让我们看一下“ Hello World!”。 BigData:字数统计示例。 用Java编写的MapReduce大约有50行代码,而在Spark(和Scala)中,您可以像下面这样简单地完成它:

sparkContext.textFile("hdfs://...")
            .flatMap(line => line.split(" "))
            .map(word => (word, 1)).reduceByKey(_ + _)
            .saveAsTextFile("hdfs://...")
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值