性能优化
文章平均质量分 97
郭俊JasonGuo
这个作者很懒,什么都没留下…
展开
-
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。原创 2017-03-06 06:45:02 · 2880 阅读 · 1 评论 -
Java进阶(六)从ConcurrentHashMap的演进看Java多线程核心技术
本文分析了HashMap的实现原理,以及resize可能引起死循环和Fast-fail等线程不安全行为。同时结合源码从数据结构,寻址方式,同步方式,计算size等角度分析了JDK 1.7和JDK 1.8中ConcurrentHashMap的实现原理。原创 2017-07-05 09:17:19 · 728 阅读 · 0 评论 -
Spark SQL / Catalyst 内部原理 与 RBO
原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自技术世界,原文链接 http://www.jasongj.com/spark/rbo/ 本文所述内容均基于 2018年9月10日 Spark 最新 Release 2.3.1 版本。后续将持续更新Spark SQL 架构Spark SQL 的整体架构如下图所示 从上图可见,无论是直接使用 SQL 语句...原创 2018-09-11 07:43:29 · 616 阅读 · 0 评论