![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
BlackEyes_SY
在不被人注意的角落里起飞
展开
-
spark2020面试题
文章目录一、RDD二、driver、Executor相关三、spark存储四、数据倾斜五、宽窄依赖、Stage、Job、task六、Spark性能优化七、并发八、pyspark内置函数、常用算子九、常见OOM类型报错,及解决办法一、RDD1.spark中的RDD是什么,有哪些特性答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合。Resilient:表示弹性的,弹性表示Da原创 2020-11-19 17:28:29 · 1148 阅读 · 0 评论 -
pysaprk数据倾斜怎么解决?
一、数据倾斜危害?单个或少数的节点数据量特别大,但一个 Stage 所耗费的时间,是由最慢的那个 Task 决定,所以数据倾斜会导致两个后果:OOM(单或少数的节点); 拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。二、数据倾斜的现象当发现如下现象时,十有八九是发生数据倾斜了: 绝大多数 task 执行得都非常快,但个别 task 执行极慢,整体任务卡在...原创 2020-01-13 17:01:32 · 531 阅读 · 0 评论 -
Spark持久化、持久化级别
一、RDD持久化Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓存是迭代算法和快速的交互式使用的重要工具。RDD 可...原创 2020-01-11 22:09:40 · 2200 阅读 · 0 评论 -
什么是RDD?RDD的特点?RDD与Dataframe的关系?
一、什么是RDD?RDD是Spark计算的时候操作的数据集,全称是Resilient Distributed Datasets(弹性分布式数据集)。数据是分布在多台机器上的,为了好处理,将这些分布的数据抽象成一个RDD。这个RDD就是所有数据的代理,操作RDD就相当于操作分布在每台机器上的数据。二、RDD 有三个基本特性1. 分区每一个 RDD 包含的数据被存储在系统的不同节点...原创 2020-01-10 16:46:50 · 2777 阅读 · 0 评论 -
pyspark.ml.feature特征工程常用方法(二)
本篇博文主要是对pyspark.ml.feature模块的函数进行介绍,也可以直接看官网文档。其中博文的数据皆来自官方文档中例子。官方文档地址:http://spark.apache.org/docs/latest/api/python/pyspark.ml.htmlpyspark.ml.feature 函数概括:__all__ = ['Binarizer', 'Bucketizer',...原创 2020-01-08 10:29:09 · 897 阅读 · 0 评论 -
Job、Stage、Task、宽依赖、窄依赖
宽依赖,窄依赖?宽依赖: 发生shuffle时,一定会产生宽依赖,宽依赖是一个RDD中的一个Partition被多个子Partition所依赖(一个父亲多有儿子),也就是说每一个父RDD的Partition中的数据,都可能传输一部分到下一个RDD的多个partition中,此时一定会发生shuffle窄依赖: 一个RDD中的一个 Partition最多 被一个 子 Partition所依赖...原创 2020-01-10 12:14:23 · 216 阅读 · 0 评论