Spark RDD学习

最新推荐文章于 2024-08-14 16:42:19 发布

shmily‘’

最新推荐文章于 2024-08-14 16:42:19 发布

阅读量210

点赞数

文章标签： Spark RDD 大数据

本文链接：https://blog.csdn.net/weixin_41074929/article/details/81741518

版权

本文深入探讨了Spark的RDD（弹性分布式数据集）特性，包括其位置感知、容错和负载均衡的特点。RDD是一种只读分区集合，支持内存和磁盘数据自动切换，并通过lineage实现高效容错。RDD操作具有lazy特性，仅在action操作时触发执行。RDD的创建方式多样，如程序集合、本地文件、HDFS、关系型数据库等。并行度设置原则为每个CPU Core可承载2-4个partition。RDD操作主要包括Transformation和Action，如collect用于收集结果。

摘要由CSDN通过智能技术生成

一、RDD：基于工作集的应用抽象
无论是基于工作集还是基于数据集，都有这几个特点：位置感知(数据存放位置)、容错、负载均衡。
基于数据流的处理：从物理存储上加载设备，操作数据，再写入物理存储设备，如Hadoop MapReduce。
基于数据流的处理中，每次查询都需要从磁盘读取数据，不能复用曾经的结果或中间计算结果。因此基于数据集的处理不适用于以下场景：
1. 不适用于大量迭代
2. 不适用于交互式查询
RDD：Resillientt Distributed Dataset弹性分布式数据集
弹性：
1. 自动进行内存和磁盘数据的切换(优先存内存)
2. 基于lineage的高效容错
3. Task若失败会进行特定次数的重试
4. Stage若失败进行特定次数的充实，只计算失败的分片
5. checkpoint和persist
checkpoint：计算链条较长或计算复杂时将数据全部放到磁盘；
persist：在磁盘或内存进行数据复用
6. 数据调度弹性：DAG ，TASK和资源、管理无关
7. 数据分片的高度可伸缩repartition

计算过程产生数据碎片，使得分片较小，若每个分片使用一个线程处理，效率太低，多个较小分片应合并，再进行处理；
内存较小，而数据分片比较大，此时分片拆分为更小的分片，进行处理。
在进行查询时，查询工作集会缓存到磁盘，之后进行相同查询任务时直接取用结果。
RDD是只读分区的集合，运算过程默认不会产生中间结果，利用lazy级别实现。例如textFile，flatMap等操作只是标记，其构建新RDD的函数参数中给出了this父RDD。不会立即执行，在进行action操作时触发执行。整个运行过程呈链式。
数据量越大，计算步骤越多，Spark优势更明显。

//flatMap构建新RDD
new MapOartitionRDD[U, T](this,(context, pid, iter)=>iter.flatMap(cleanF))

常规容错方式：数据检查点和记录更新
数据检查点：通过数据中心网络连接不同机器，每次操作都要复制数据集。消耗带宽。网络带宽是分布式系统的瓶颈。
数据更新&

最低0.47元/天解锁文章

shmily‘’

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD学习

一、RDD：基于工作集的应用抽象无论是基于工作集还是基于数据集，都有这几个特点：位置感知(数据存放位置)、容错、负载均衡。基于数据流的处理：从物理存储上加载设备，操作数据，再写入物理存储设备，如Hadoop MapReduce。基于数据流的处理中，每次查询都需要从磁盘读取数据，不能复用曾经的结果或中间计算结果。因此基于数据集的处理不适用于以下场景： 1. 不适用于大量迭代 2. 不...
复制链接

扫一扫