Spark_数据工程师~老洋的博客-CSDN博客

Spark

关注

文章平均质量分 80

关注数：文章数：4 文章阅读量：1488 文章收藏量：5

作者: 数据工程师~老洋

路漫漫其修远兮，吾将上下而求索

展开

RDD序列化，闭包

1、闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor 端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor 端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。Scala2.12 版本后闭包编译方式发生了改变 2、序列化方法和属性从计算的角度, 算子以外的

原创 2021-07-06 09:44:36 · 227 阅读 · 0 评论
DataFrame、DataSet、RDD之间的关系

1、RDD、DF、DS的关系 RDD SparkCore中的数据结构 RDD【T】：有泛型，但是不支持Schema 数据可以以不同的类型存储在RDD中，但是没有Schema信息 RDD【String】：文件的每一行就是一个String对象可能这一行有4个字段，RDD没有schema，无法对字段进行处理 RDD【（String，Int）】存储：数据 RDD不知道这条数据中有几个字段的不能按照字段进行处理 DataFrame SparkSQL早期的数据结构 DataFrame【

原创 2021-07-05 16:31:08 · 270 阅读 · 0 评论
简述RDD

一、RDD是什么？ 1、简述RDD是什么？弹性分布式数据集： resilient distributed dataset (RDD) 弹性：RDD的数据可以被缓存在内存中，长久存在。如果内存不足，可以将数据缓存在磁盘中。分布式：这个集合中的数据是分散在不同机器节点上的。数据集：数据的集合。总结：就是一个可以将数据存储在分布式内存中的数据集合。功能：用于实现将Spark计算的数据构建分布式，实现分布式的任务计算。 Spark将所有读取进来的数据都封装在RDD这个数据结构中，变成分布式的数据。

原创 2021-07-05 15:01:36 · 687 阅读 · 0 评论
SparkCore算子整理

def glom(): RDD[Array[T]]

原创 2021-06-30 17:56:47 · 304 阅读 · 0 评论

Spark

作者: 数据工程师~老洋

RDD序列化，闭包

DataFrame、DataSet、RDD之间的关系

简述RDD

SparkCore算子整理