RDD操作
RDD的创建方式
- 从Hadoop文件系统(或与Hadoop兼容的其他持久化存储系统,如Hive、Cassandra、HBase)输入(例如HDFS)创建。
- 从父RDD转换得到新RDD。
- 通过parallelize或makeRDD将单机数据创建为分布式RDD。
4.基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建
RDD的两种操作算子
对于RDD可以有两种操作算子:转换(Transformation)与行动(Action)。
1. 转换(Transformation):Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。
2. 行动(Action):Action算子会触发Spark提交作业(Job),并将数据输出Spark系统。
Transformation具体内容:
Action具体内容