Spark RDD学习

本文深入探讨了Spark的RDD(弹性分布式数据集)特性,包括其位置感知、容错和负载均衡的特点。RDD是一种只读分区集合,支持内存和磁盘数据自动切换,并通过lineage实现高效容错。RDD操作具有lazy特性,仅在action操作时触发执行。RDD的创建方式多样,如程序集合、本地文件、HDFS、关系型数据库等。并行度设置原则为每个CPU Core可承载2-4个partition。RDD操作主要包括Transformation和Action,如collect用于收集结果。
摘要由CSDN通过智能技术生成

一、RDD:基于工作集的应用抽象
无论是基于工作集还是基于数据集,都有这几个特点:位置感知(数据存放位置)、容错、负载均衡。
基于数据流的处理:从物理存储上加载设备,操作数据,再写入物理存储设备,如Hadoop MapReduce。
基于数据流的处理中,每次查询都需要从磁盘读取数据,不能复用曾经的结果或中间计算结果。因此基于数据集的处理不适用于以下场景:
1. 不适用于大量迭代
2. 不适用于交互式查询
RDD:Resillientt Distributed Dataset弹性分布式数据集
弹性:
1. 自动进行内存和磁盘数据的切换(优先存内存)
2. 基于lineage的高效容错
3. Task若失败会进行特定次数的重试
4. Stage若失败进行特定次数的充实,只计算失败的分片
5. checkpoint和persist
checkpoint:计算链条较长或计算复杂时将数据全部放到磁盘;
persist:在磁盘或内存进行数据复用
6. 数据调度弹性:DAG ,TASK和资源、管理无关
7. 数据分片的高度可伸缩repartition

计算过程产生数据碎片,使得分片较小,若每个分片使用一个线程处理,效率太低,多个较小分片应合并,再进行处理;
内存较小,而数据分片比较大,此时分片拆分为更小的分片,进行处理。
在进行查询时,查询工作集会缓存到磁盘,之后进行相同查询任务时直接取用结果。
RDD是只读分区的集合,运算过程默认不会产生中间结果,利用lazy级别实现。例如textFile,flatMap等操作只是标记,其构建新RDD的函数参数中给出了this父RDD。不会立即执行,在进行action操作时触发执行。整个运行过程呈链式。
数据量越大,计算步骤越多,Spark优势更明显。

//flatMap构建新RDD
new MapOartitionRDD[U, T](this,(context, pid, iter)=>iter.flatMap(cleanF))

常规容错方式:数据检查点和记录更新
数据检查点:通过数据中心网络连接不同机器,每次操作都要复制数据集。消耗带宽。网络带宽是分布式系统的瓶颈。
数据更新&

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值