Spark
文章平均质量分 90
Samooyou
这个作者很懒,什么都没留下…
展开
-
spark3新特性之动态分区裁剪
Spark3.0为我们带来了许多令人期待的特性。Spark中的静态分区裁剪在介绍动态分区裁剪之前,有必要对Spark中的静态分区裁剪进行介绍。因此,在这种情况下,我们不能再应用静态分区裁剪,因为filter条件在join表的一侧,而对裁剪有用的表在Join的另一侧。Spark将这个查询转化为一种易于理解的形式,我们称它为查询的逻辑计划。物理计划阶段优化如果维度表很小,那么Spark很可能会以broadcasthashjoin的形式执行这个Join。Spark 3.0 为我们带来了许多令人期待的特性。原创 2023-07-12 10:19:13 · 558 阅读 · 0 评论 -
Spark问题排查方式
spark原创 2023-06-06 15:41:46 · 347 阅读 · 0 评论 -
Spark内核
Spark中未进行序列化的对象,由于其占用的内存是通过周期性地采样近似估算而得,即并不是每次新增的数据项都会计算一次占用的内存大小,所以可能导致Spark标记为释放的内存但是JVM并没有释放导致实际可用的内存小于Spark记录的可用内存,甚至OOM。堆外内存直接向操作系统申请,所以可以实现精准的空间计算。原创 2022-08-22 16:00:18 · 1075 阅读 · 0 评论