这篇教程为使用spark提供一个快速的介绍。我们将先介绍spark shell的API(python or scala),然后展示如何用JAVA,PYTHON,SCALA写应用。
请先安装SPARK,下载地址http://spark.apache.org/downloads.html,由于我们不使用HDFS,可以基于任何hadoop版本。
通过spark shell进行交互式分析
启动spark shell
./bin/spark-shell
可以看到,交互shell已经为我们准备好了Spark context,变量名为sc,现在用它来提交一个作业。
RDD是Spark的一个关键概念,它对分布式数据集合进行了抽象,称为弹性分布式数据。RDDs可以由Hadoop的输入数据,比如HDFS文件创建,也可以由其它RDDs转换而来。下面由README.md文本文件创建了一个RDD.
RDD有动作,返回一个值。也有转换,返回一个新的RDDs.我们先来执行一些动作。