RDD就是一个不可变的分布式对象集合。
创建
RDD: 1)读取一个外部数据集(SparkContext.textFile());
2)在驱动器程序中对一个集合进行并行化。
RDD 操 作: 1)转 化 操 作(transformation):
会由一个
RDD
生成一个新的
RDD。
2)行 动 操 作
(
action):会对 RDD 计算出一个结果,并把结果返回到驱动器程序中,或存储到外部存储系统(如 HDFS)中。
转化操作:union() 、filter()
行动操作:count() 、take() 、collect()
filter:RDD过滤数据;
union:两个RDD操作;
count:RDD计数;
take:获取RDD少量数据;
collect:获取RDD全部数据。
转化操作和行动操作的区别:在于 Spark计算 RDD的方式不同,转化操作返回的是 RDD,而行动操作