![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
_零
小白水平
展开
-
RDD 中的检查点机制的理解
RDD 中的检查点机制的理解 概念理解 检查点机制目的: 数据的持久化 + 安全性(HDFS) 检查点机制适用场合: DGA 中的 Lineage过长 在宽依赖上设置 检查点 更好 检查点: 将 RDD 的数据进行持久化到文件系统(HDFS)中 分析 问题:checkPoint 执行跟 cache 一样么? 代码如下:(这里的 HDFS 路径注意自己本地 hosts 文件要有映射关系) @...原创 2020-04-28 17:21:48 · 419 阅读 · 0 评论 -
RDD 中的持久化理解(入门篇)
理解概念 持久化:落实数据,可以在内存或者磁盘中 RDD 算子分类: transaction算子、Action算子。 执行流程大概理解:其中 transaction算子会在执行的时候保存执行顺序,只有当 使用 行为算子的时候,才会触发整个算子流程的执行(本质是当 Action算子调用的时候再回触发底层的提交 Job 任务) 开始分析 问题:假如我现在有一个 oldRDD对象,计划对这个对象进行 ...原创 2020-04-28 16:32:23 · 590 阅读 · 0 评论