![](https://img-blog.csdnimg.cn/20210828153100468.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 73
Spark实战
手撕机
娱乐博主。
展开
-
[Spark] GraphX入门
目前,原生Spark的GraphX只有Scala接口,如果想要用Python,可以使用GraphFames。1、安装GraphFrames首先根据Spark版本到SparkPackages下载合适的版本,因为我使用的是Spark 2.2,所以我这里下载的是graphframes-0.6.0-spark2.2-s_2.11.jar。可以使用Maven来下载该包以及依赖包。新建pom.xml文件,从SparkPackages里复制模板并修改版本为你需要的版本:<?xml version="1.0原创 2021-09-15 15:03:14 · 1140 阅读 · 0 评论 -
[Spark] persist和checkpoint
了解Spark的缓存机制对提高作业的计算速度和可靠性具有非常大的帮助。persist和cachepersist和cache都是可以将数据(RDD)缓存到内存或持久化到磁盘的方法。虽然这两个方法都是惰性计算,但严格来说,persist和cache既不是转换算子,也不是行动算子,只是标记了当前RDD要进行缓存。cache是persist的特殊用法,即参数为MEMORY_ONLY。persist(storageLevel=StorageLevel(False, True, False, False, 1)原创 2021-08-30 00:25:33 · 295 阅读 · 0 评论 -
[Spark] 手撕Job、Stage、Task划分机制
Spark中:1、根据算子是否是行动(Action)算子,来划分Job;2、根据算子运算是否需要洗牌(Shuffle),来划分Stage;3、根据RDD的分区数,来划分Task。下面以例子来进行说明。首先启动一个Spark的Application:pyspark --queue gldDriver的核数和内存,Executor的实例数、核数和内存都是默认值,即–driver-cores=1, --driver-memory=1G, --num-executors=2, --executor-原创 2021-08-29 01:08:24 · 3295 阅读 · 0 评论 -
[Spark] 手撕适用于RDD的30个常用算子
转换(Transformation)算子行动(Action)算子原创 2021-06-14 22:01:33 · 444 阅读 · 0 评论 -
[Spark] 固定资源申请和动态资源分配
本文假设Spark部署方式为YARN。一个Container包含一个Executor(即一个JVM进程)。原创 2021-06-15 01:27:50 · 1903 阅读 · 0 评论