spark
文章平均质量分 97
番茄薯仔
广州某农校研二学生,主要研究CV和大数据开发
展开
-
【读懂面经中的源码】SPARK源码解析——shuffle过程
【读懂面经中的源码】SPARK源码解析——shuffle过程。这是我的第一篇读源码博客,主要从面经出发,深入理解spark shuffle过程,期间通过源码加深理解面经中提到的原理。文章包括三部分,分别是面筋部分、shuffle write、shuffle read部分。文章三部分的讲解将有助于读者同学理解spark shuffle详细原理,希望能够帮助到各位读者同学!!!原创 2023-08-08 21:21:51 · 327 阅读 · 0 评论 -
Spark3性能调优(四)---AQE-DPP-Hint增强-故障排查问题
本篇文章是Spark3性能调优系列文章之:Spark3性能调优(四)---AQE-DPP-Hint增强-故障排查问题,是本人的学习笔记系列文章其一。详细讲了“AQE自适应查询执行“、”DPP“、”Hint增强“、”故障排查问题”几个方面的原理和实验流程,可为Spark初学者展现一定的Spark调优技巧。原创 2023-05-12 12:31:58 · 641 阅读 · 0 评论 -
Spark3性能调优(二)---数据倾斜
本篇文章是Spark3性能调优系列文章之:Spark3性能调优(二)---数据倾斜,是本人的学习笔记系列文章其一。详细讲了“数据倾斜”方面的原理和实验流程,可为Spark初学者展现一定的Spark调优技巧。原创 2023-05-12 12:13:51 · 338 阅读 · 0 评论 -
Spark3性能调优(三)---Job优化
本篇文章是Spark3性能调优系列文章之:Spark3性能调优(三)---Job优化,是本人的学习笔记系列文章其一。详细讲了“Job优化”方面的原理和实验流程,可为Spark初学者展现一定的Spark调优技巧。原创 2023-05-12 12:24:52 · 303 阅读 · 0 评论 -
Spark3性能调优(一)---资源调优-SparkSQL语法优化
本篇文章是Spark3性能调优系列文章之:Spark3性能调优(一)---资源调优-SparkSQL语法优化,是本人的学习笔记系列文章其一。详细讲了“Explain 查看执行计划”、“资源调优”、“SparkSQL语法优化”几个方面的原理和实验流程,可为Spark初学者展现一定的Spark调优技巧。原创 2023-05-12 12:06:05 · 400 阅读 · 0 评论 -
基于SPARK的淘宝用户购物行为可视化分析(调优版一)
基于SPARK的淘宝用户购物行为可视化分析调优版,实验基于搭建的虚拟机集群,针对其中一条SQL转换成RDD形式进行调优,调优前后运行时间从200s降低至140s,有点效果!原创 2023-04-26 10:53:13 · 651 阅读 · 0 评论 -
基于SPARK的淘宝用户购物行为可视化分析
这篇文章旨在练习大数据Spark操作,做一些简单的分析。后续阶段将基于三台虚拟机情况下进行调优,以期实现性能最优化。原创 2023-04-19 13:14:08 · 2331 阅读 · 2 评论