大数据技术之_19_Spark学习_02_Spark Core 应用解析小结

最新推荐文章于 2024-01-23 09:18:58 发布

黑泽君

最新推荐文章于 2024-01-23 09:18:58 发布

阅读量210

点赞数

文章标签： Spark Core Spark RDD

本文链接：https://blog.csdn.net/u012990179/article/details/89578597

版权

1、RDD 全称弹性分布式数据集 Resilient Distributed Dataset
它就是一个 class。

abstract class RDD[T: ClassTag](
    @transient private var _sc: SparkContext,
    @transient private var deps: Seq[Dependency[_]]
  ) extends Serializable with Logging {

继承了 Serializable 和具有 Logging 的特质，为什么要Serializable？答：因为不同的 RDD 之间需要进行转化（序列化：数据转化成二进制，反序列：化二进制转化为数据）。

2、RDD 其实是 spark 为了减少用户对于不同数据结构之间的差异而提供的数据封装，为用户提供了很多数据处理的操作。

3、RDD 三个特点
3.1、不可分，在 RDD 上调用转换算子，会生成一个新的 RDD，不会更改原 RDD 的数据结构。
3.2、可分区，RDD 的数据可以根据配置分成多个分区，每个分区都被一个 Task 任务去处理，可以认为分区数就是并行度。
3.3、弹性：
3.3.1、存储的弹性，RDD 的数据可以在内存和磁盘进行自动切换，对用户透明。
3.3.2、计算的弹性，RDD 的计算之间会有重试机制，避免由于网络等原因导致的任务失败。
3.3.3、容错的弹性，RDD 可以通过血统机制来进行 RDD 的恢复。
3.3.4、分区的弹性，可以根据需求来动态改变 RDD 分区的分区数，也就是动态改变了并行度。

4、Spark 到底做了什么？

简言之：从外部空间将数据加载到 Spark，对数据进行转换、缓存最后将数据通过行动操作保存到外部空间。

5、RDD 两种处理数据的方式
RDD 有两种处理数据的方式，一种叫转换操作【一个 RDD 调用该方法后返回一个 RDD】，另外一种叫行动操作【一个 RDD 调用该方法后返回一个标量或者直接将数据保存到外部空间】。

6、RDD 是懒执行的，如果没有行动操作出现，所有的转换操作都不会执行。

转换操作：
1、def map[U: ClassTag](f: T => U): RDD[U]      映射，将一种类型的数据转换成为另外一种类型的数据。
2、def filter(f: T => Boolean): RDD[T]          返回满足条件的数据。
3、def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]     将一个数据结构转换成为一个可迭代的数据结构，然后将数据压平。

4、def mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U]                    对于每一个分区执行一次函数，它的执行效率要比 map 高。
5、def mapPartitionsWithIndex[U: ClassTag](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false): RDD[U]    类似于 mapPartitions，但 func 带有一个整数参数表示分片的索引值。

6、def sample(withReplacement: Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T]     对 RDD 进行采样，主要用于观察大数据集的分布情况。

7、def union(other: RDD[T]): RDD[T]             和另外一个 RDD 取并集。
8、def intersection

最低0.47元/天解锁文章

黑泽君

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之_19_Spark学习_02_Spark Core 应用解析小结

大数据技术之_19_Spark学习_02_Spark Core 应用解析小结
复制链接

扫一扫

专栏目录