spark
ThomasgGx
这个作者很懒,什么都没留下…
展开
-
spark读取hive phoenix映射
spark读取hive Phoenix映射表原创 2023-03-01 14:43:01 · 237 阅读 · 4 评论 -
pyspark 集成指定python版本
pyspark 指定python版本原创 2022-12-22 19:30:20 · 1810 阅读 · 0 评论 -
关于Spark动态分区裁剪在3.3版本之前的BUG记录
关于spark 动态分区裁剪在3.3版本之前的bug原创 2022-09-27 16:59:24 · 394 阅读 · 0 评论 -
scala中迭代器
scala迭代器与其在spark 中的应用原创 2022-08-31 14:29:41 · 1000 阅读 · 0 评论 -
Spark 自动转换BroadcastJoin代码分析
Spark 自动MapJoin 代码分析原创 2022-08-24 18:16:17 · 767 阅读 · 0 评论 -
spark3.3 windows 平台下源码编译
spark3.3 windows 下源码编译原创 2022-06-27 17:20:25 · 648 阅读 · 0 评论 -
spark运行时reduce端任务数
Tasks数决定因素在Spark 中 我们知道会将一个任务划分为多个stage ,划分stage的依据就是是否为宽依赖(存在shuffle),每个stage 的并行度取决于一个stage 最后一个算子,因为一个任务的调用是从最后一个算子向前执行的.所以一个任务的task 数主要看一个stage最后的一个rdd的分区数。这里主要用一个列子说明计算过程分区数是怎么确定的:rdd.map(…).reduceByKey(…).collect()根据上面这段逻辑可以知道 map 中主要返回的是一个mapPar原创 2021-02-23 15:09:32 · 1352 阅读 · 0 评论