rdd
文章平均质量分 91
花和尚也有春天
会收集一些不错的文章,时常品读,也学着自己总结一些东西,坚持努力的方向!
展开
-
Spark:RDD checkpoint容错机制
经过上一节的学习,我们了解到合理地将RDD持久化/缓存,不仅直接避免了RDD的重复计算导致的资源浪费和占用还提升了RDD的容错性,而且间接提升了分析任务的完成效率,那么为什么又会需要基于checkpoint的容错机制,在什么情况下需要设置checkpoint呢?对RDD进行checkpoint操作,会将RDD直接存储到磁盘上,而不是内存,从而实现真正的数据持久化。checkpoint实际上对RDDlineage(RDD依赖关系图谱)的辅助和重新切割修正,当RDD依赖关系过于冗长和复杂时,即依赖...原创 2020-06-29 00:27:39 · 550 阅读 · 0 评论 -
RDD
RDD计算方式RDD的宽窄依赖 窄依赖 (narrowdependencies) 和宽依赖 (widedependencies) 。窄依赖是指 父 RDD 的每个分区都只被子 RDD 的一个分区所使用 。宽依赖就是指父 RDD 的分区(父RDD被切分并分发了)被多个子 RDD 的分区所依赖。这种划分有两个用处: 首先,窄依赖支持在一个节点上管道化执行。例如...转载 2018-10-17 22:41:06 · 153 阅读 · 0 评论 -
RDD:五大特性
1.A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。 2.A function for computing each split 一个函数计算每一个分片,RDD的每个partit...原创 2018-10-06 23:31:28 · 25261 阅读 · 0 评论 -
RDD: 与DataFrame之间的相互转换
DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化。DataFrames可以从各种各样的源构建。例如:结构化数据文件,Hive中的表,外部数据库或现有RDD。DataFrame API 可以被Scala,Java,Python和R调用。在Scala和Java中,DataFrame由Rows的数据集表示。...转载 2018-09-27 00:20:39 · 8101 阅读 · 0 评论 -
RDD:api整理
RDD[T]Transformationsrdd api 备注 persist/cache map(f: T => U) keyBy(f: T => K) 特殊的map,提key flatMap(f: T => Iterable[U]) map的一种,类似UDTF filter(f: T => Boolean...转载 2018-09-20 12:21:34 · 182 阅读 · 0 评论 -
RDD:创建的几种方式(scala和java)
Spark编程每一个spark应用程序都包含一个驱动程序(driver program ),他会运行用户的main函数,并在集群上执行各种并行操作(parallel operations)spark提供的最主要的抽象概念有两种: 弹性分布式数据集(resilient distributed dataset)简称RDD ,他是一个元素集合,被分区地分布到集群的不同节点上,可以被并行操作,RD...转载 2018-09-19 11:58:56 · 12517 阅读 · 0 评论 -
RDD :分区 & perfect
目录RDD 分区分区分区实现分区个数分区内部记录个数RDD 分区分区先回答第一个问题:RDD 内部,如何表示并行计算的一个计算单元?答案是使用分区(Partition)RDD 内部的数据集合在逻辑上和物理上被划分成多个小子集合,这样的每一个子集合我们将其称为分区。分区的个数会决定并行计算的粒度。而每一个分区 数值的计算都是在一个单独的任务中进...转载 2018-10-17 22:59:46 · 578 阅读 · 1 评论 -
RDD:分区器
目录RDD 分区器哈希分区器范围分区器自定义分区(Partitioner)RDD 分区器分区器(Partitioner)在前面章节中或多或少有所提及。我总结了 RDD 分区器的三个作用,而这三个影响在本质上其实是相互关联的。决定 Shuffle 过程中 Reducer 的个数(实际上是子 RDD 的分区个数)以及 Map 端的一条数据记录应该分配给哪一个 Reducer...转载 2018-10-17 23:01:33 · 830 阅读 · 0 评论