Spark基础
文章平均质量分 94
基础知识
TRX1024
字节内推,可私信~
展开
-
《Spark官方文档》Web UI -学习笔记
Apache Spark 提供了一套 Web 用户界面(UI),您可以使用它们来监视 Spark 集群的状态和资源消耗。如:一、Jobs 页面Jobs 页面展示了Spark应用程序中所有作业的摘要信息以及每个作业的详细信息页。摘要页面显示整体信息,例如所有作业的状态、持续时间和进度以及整个事件的时间线。点击某个job将进入该job的详细信息页面,会进一步显示时间时间线、DAG可视化效果以及作业的所有stages。Jobs 页中显示的信息是:User: 当前Spark任务提原创 2022-03-10 21:10:43 · 2225 阅读 · 0 评论 -
《Spark官方文档》监控和工具-学习笔记
官网链接:Monitoring and Instrumentation - Spark 3.2.1 Documentation有几种方法可以监控Spark应用程序:Web UI、metrics 以及外部工具。Web UI每个SparkContext都会启动一个web UI,其默认端口为4040,并且这个web UI能展示很多有用的Spark应用相关信息。包括:一个stage和task的调度列表 一个关于RDD大小以及内存占用的概览 运行环境相关信息 运行中的执行器相关信息你只需打原创 2022-03-10 17:25:53 · 2129 阅读 · 0 评论 -
Spark 优化——RDD缓存(cache、persist、checkpoint)的区别及策略选择
目录一、RDD持久化1.什么时候该使用持久化(缓存)2. RDD cache & persist 缓存3. RDD CheckPoint 检查点4. cache & persist & checkpoint 的特点和区别特点区别二、cache & persist 的持久化级别及策略选择Spark的几种持久化级别:1.MEMORY_ONLY2.MEMORY_AND_DISK3.MEMORY_ONLY_SER4.MEMORY_.原创 2021-09-07 22:26:08 · 3526 阅读 · 2 评论 -
Spark 优化——故障排除
目录故障排除一:控制 reduce 端缓冲大小以避免 OOM故障排除二:JVM GC 导致的 shuffle 文件拉取失败故障排除三:解决各种序列化导致的报错故障排除四:解决算子函数返回 NULL 导致的问题故障排除五:解决 YARN-CLIENT 模式导致的网卡流量激增问题故障排除六:解决 YARN-CLUSTER 模式的 JVM 栈内存溢出无法执行问题故障排除七:解决 SparkSQL 导致的 JVM 栈内存溢出故障排除八:持久化与 checkpoint 的使用故障排原创 2021-09-07 02:43:38 · 506 阅读 · 0 评论 -
Spark 优化——数据倾斜解决方案
目录一、什么是数据倾斜数据倾斜的表现:定位数据倾斜问题:二、解决方案解决方案一:聚合原数据1) 避免 shuffle 过程2) 缩小 key 粒度(增大数据倾斜可能性,降低每个 task 的数据量)3) 增大 key 粒度(减小数据倾斜可能性,增大每个 task 的数据量)解决方案二:过滤导致倾斜的 key解决方案三:提高 shuffle 操作中的 reduce 并行度reduce 端并行度的设置reduce 端并行度设置存在的缺陷解决方案四:使用随机 k原创 2021-09-07 02:30:47 · 909 阅读 · 0 评论 -
Spark 优化——性能(常规性能、算子、Shuffle、JVM)调优
目录一、常规性能调优1.常规性能调优一:最优资源配置2.常规性能调优二:RDD 优化1) RDD 复用2) RDD 持久化3) RDD 尽可能早的 filter 操作3.常规性能调优三:并行度调节4.常规性能调优四:广播大变量5.常规性能调优五:Kryo 序列化6.常规性能调优六:调节本地化等待时长二、算子调优1.算子调优一:mapPartitions2.算子调优二:foreachPartition 优化数据库操作3.算子调优三:filter 与 co原创 2021-09-07 01:54:11 · 585 阅读 · 0 评论 -
Spark内核之Driver的工作流程(Stage划分、Task划分、Task调度)
fff原创 2021-09-05 23:54:50 · 3108 阅读 · 4 评论 -
Spark内核(执行原理)之环境准备/Spark作业提交流程
了解Spark任务的提交到运行的流程,其中包含两个阶段:第一阶段在Yarn集群之外执行,主要是作业的提交,将作业提交到Yarn集群为止。 第二阶段在Yarn集群执行,涉及资源分配、AM、Driver、Executor等组件的创建和启动。一、第一阶段:作业提交1.提交脚本作业提交脚本一般提交一个spark作业的方式采用spark-submit来提交# Run on a Spark standalone cluster./b...原创 2021-09-05 19:45:11 · 373 阅读 · 0 评论 -
一文看懂Spark中reduceByKey 和 groupByKey 的区别
目录一、先看结论二、举例、画图说明1.实现的功能分别是什么?1).groupByKey 实现 WordCount2).reduceByKey 实现 WordCount2.画图解析两种实现方式的区别1) groupByKey 实现 WordCount2).reduceByKey 实现 WordCount(简单流程)3).reduceByKey 实现 WordCount(终极流程)一、先看结论1.从Shuffle的角度 reduceByKey 和 g...原创 2021-09-04 21:08:53 · 15142 阅读 · 4 评论 -
Spark 核心概念:Master、Worker、Driver Program、Executor、RDDs
一、Master Spark 特有资源调度系统的 Leader,掌管着整个集群的资源信息(Standalone模式),类似于 Yarn 集群中的ResourceManager。主要功能:监听 Worker,看集群中的 Worker 是否正常工作; 管理 Worker、Application(接收 Worker 的注册并管理所有的 Worker;接收 Client 提交的 Application,调度等待的Application 并向Worker提交)。二、Worker...原创 2020-09-18 00:47:18 · 898 阅读 · 0 评论