Spark四种操作 : 创建、转换(惰性操作:只是定义了新的RDDs,并未立即执行)、控制(持久化)、行动
“血统”
不需要昂贵的“复制”代价
检查点
SparkSQL查询出来的数据处理:
val df = sqlContext.sql("select * from table")
// 这里df.rdd为RDD[org.apache.spark.sql.Row]格式
val rdd = df.rdd.map(_.toSeq.toArray.map(_.toString)).map(s => s(0))
rdd.repartition(1).saveAsTextFile("/xxx/xx")