创建新RDD
RDD通过Hadoop inputformats(比如说HDFS文件系统)或transforming其他RDD来创建。
在spark source directory中的README文档新建一个新的RDD。
利用spark-shell提供的sc(spark content)来读取这个README文档,通过方程“textFile”,返回一个数组包含文档中的各个行。这样就创建了一个新的RDD。
RDD操作
RDD有两类操作:1、actons(返回值);2、transformations(返回指向RDD的指针)
spark运行
两种方式运行spark application:
1、run in local mode(for testing(直接用eclipse导入工程运行))
2、run in the cluster(for production):
在运行任何spark项目之前,需要正确配置并且启动spark cluster。一个完整的spark cluster包括一个master node和至少一个worker node。可以将eclipse中的项目导出程jar通过spark cluster运行。
(不管是eclipse还是intellij导入都没有运行成功,决定找找其他案例)