2020年05月_祝威廉

09月 06月 05月 04月

原创 Spark 资源自动清理

Spark运行一次SQL，根据SQL的具体执行情况，可能会产生很多垃圾。譬如你可以很容易观察到的就是在Spark UI上跑完SQL后会有Storage Memory的占用：这个应该是SQ...

2020-05-15 16:41:22 1259

原创 Java G1垃圾回收导读

因为已经有非常好的文章介绍G1了，所以这篇文章只会提供一些我觉得特别好的文章信息，帮助大家从茫茫的信息海洋里节省时间。祝威廉如何看懂G1的GC日志非常重要，因为我们需要通过日志进一步了...

2020-05-14 17:56:23 316 1

原创 Spark GC 调优文章推荐

为什么我们需要调GC如果是在以前，ETL为王的年代，我们其实大可不必去调试，使用默认的 Parallel GC就可以了。但是随着发展，实时流计算以及AdHoc查询，对JVM的要求：高吞吐...

2020-05-12 14:32:48 358

原创 Spark 大/小文件读取优化

问题描述使用Spark写复杂SQL时，我们经常会遇到两个尴尬的情况：表里的单个文件都很大，而且因为record比较小，所以单个文件的record数量巨大。表里每个分区都有成百上千个小文件...

2020-05-08 12:56:31 2212 1

原创 SQL复用告别拷贝黏贴！兄dei，来看看

本文将介绍如何通过MLSQL将一条又长又复杂(子查询，Join以及重复片段满天飞)的SQL简化成萌新都能看懂的SQL语句。案例来了下面一条SQL是从网上随便找的，大家可以看到，这条SQL结构上从结构上具备复杂化的潜质，子查询，Join等用的不亦乐乎。然而和真实的业务场景里的SQL复杂度比前来，这条SQL的复杂度简直是孙子级别的。image如果我们仔细思考下，我们至少发现两点：...

2020-05-07 10:32:40 50