Spark应用:driver program运行用户main函数并在executors集群执行并行操作
1 Spark提供两种抽象:RDD和shared variables
2 创建RDD的两种方式:在驱动器程序parallelize集合;从外部存储系统引入数据集
1) SparkContext.parallelize
可以使用第二个参数传递分区数量,即并行度,sc.parallelize(data, numSlices)
2) 外部存储系统包括本地文件系统,HDFS,Cassandra,HBase,Amazon S3,并支持文本文件,SequenceFile,和其他的Hadoop InputFormat
> textFile返回文件的每一line作为一条记录
> 文件系统的路径要可被所有工作节点访问
> textFile方法支持路径,压缩文件,wildcards(通配符)
textFile("/my/directory")/textFile("/my/directory/*.txt")/textFile("/my/directory/*.gz").