![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 80
数据工程师~老洋
路漫漫其修远兮,吾将上下而求索
展开
-
RDD序列化,闭包
1、闭包检查 从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor 端执行。那么在 scala 的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就 形成了闭包的效果,如果使用的算子外的数据无法序列化,就意味着无法传值给 Executor 端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列 化,这个操作我们称之为闭包检测。Scala2.12 版本后闭包编译方式发生了改变 2、序列化方法和属性 从计算的角度, 算子以外的原创 2021-07-06 09:44:36 · 227 阅读 · 0 评论 -
DataFrame、DataSet、RDD之间的关系
1、RDD、DF、DS的关系 RDD SparkCore中的数据结构 RDD【T】:有泛型,但是不支持Schema 数据可以以不同的类型存储在RDD中,但是没有Schema信息 RDD【String】:文件的每一行就是一个String对象 可能这一行有4个字段,RDD没有schema,无法对字段进行处理 RDD【(String,Int)】 存储:数据 RDD不知道这条数据中有几个字段的 不能按照字段进行处理 DataFrame SparkSQL早期的数据结构 DataFrame【原创 2021-07-05 16:31:08 · 270 阅读 · 0 评论 -
简述RDD
一、RDD是什么? 1、简述RDD是什么? 弹性分布式数据集: resilient distributed dataset (RDD) 弹性:RDD的数据可以被缓存在内存中,长久存在。如果内存不足,可以将数据缓存在磁盘中。 分布式:这个集合中的数据是分散在不同机器节点上的。 数据集:数据的集合。 总结:就是一个可以将数据存储在分布式内存中的数据集合。 功能:用于实现将Spark计算的数据构建分布式,实现分布式的任务计算。 Spark将所有读取进来的数据都封装在RDD这个数据结构中,变成分布式的数据。原创 2021-07-05 15:01:36 · 687 阅读 · 0 评论 -
SparkCore算子整理
def glom(): RDD[Array[T]]原创 2021-06-30 17:56:47 · 304 阅读 · 0 评论