![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark专栏
文章平均质量分 73
wangleigiser
这个作者很懒,什么都没留下…
展开
-
Spark分布式数据写出原理
具体过程如下当Spark中的某个写任务失败时,就向Spark驱动节点发出终止任务的请求,同时删除写路径下的文件;Spark在写出文件的时候,会为每个任务建立一个临时目录并将数据写到这个临时目录中;(4)当Spark驱动节点接收到所有写任务的“写成功”状态后,便认为所有的写文件操作都已经完成,于是提交写文件作业,并将临时目录以文件移到方式修改为最终目录,这样写文件的过程就完成了。(3)数据写完后,就将临时(temporary)目录修改为最终目录,这在HDFS中是通过move命令来实现的,如图所示。......原创 2022-07-25 11:17:50 · 536 阅读 · 0 评论 -
基于Spark3.3.0的doris-spark-connector实战
想要更全面了解Spark内核和应用实战,可以购买我的新书。《图解Spark 大数据快速分析实战》(王磊))执行vim custom_env.sh ,修改custom_env.sh文件,添加如下内容:基于spark3.3.0编译编译结果2. spark-3.3.0 环境配置下载spark二进制压缩包并解压。spark环境配置:vim /etc/profile将编译好的spark-doris-connector-3.3_2.12-1.0.0-SNAPSH原创 2022-07-15 11:46:07 · 1532 阅读 · 0 评论 -
Spark提交任务到Yarn并查看任务日志
spark提交任务到yarn查看yarn任务原创 2022-07-01 11:24:39 · 846 阅读 · 0 评论 -
Spark SQL新特性
Spark SQL内核调优原创 2022-06-27 11:01:10 · 617 阅读 · 0 评论 -
Spark3.0新特性-AQE
想要更全面了解Spark内核和应用实战,可以购买我的新书。《图解Spark 大数据快速分析实战》(王磊)【摘要 书评 试读】- 京东图书https://item.jd.com/13613302.htmlAQE1.AQE的概念Spark SQL是Spark开发中使用最广泛的引擎,它使得我们通过简单的几条SQL语句就能完成海量数据(TB或PB级数据)的分析。AQE(Adaptive Query Execution,自适应查询执行)的作用是对正在执行的查询任务进行优化。AQE使Spark计划.原创 2022-03-15 23:27:13 · 3820 阅读 · 0 评论 -
如何处理Spark数据倾斜问题
想要更全面了解Spark内核和应用实战,可以购买我的新书。《图解Spark 大数据快速分析实战》(王磊)【摘要 书评 试读】- 京东图书1 什么是数据倾斜数据倾斜是指某些任务对应分区上的数据显著多于其他任务对应分区上的数据,从而导致这部分分区上数据的处理速度成为处理整个数据集的瓶颈。在Spark中,同一Stage内不同的任务可以并行执行,而不同Stage之间的任务可以串行执行。如图所示,假设一个Spark作业分为Stage 0和Stage 1,且Stage 1依赖于Stage 0,那..原创 2022-02-26 22:35:29 · 2683 阅读 · 0 评论