- 博客(9)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 Spark 资源自动清理
Spark运行一次SQL,根据SQL的具体执行情况,可能会产生很多垃圾。譬如你可以很容易观察到的就是在Spark UI上跑完SQL后会有Storage Memory的占用:这个应该是SQ...
2020-05-15 16:41:22 1259
原创 Java G1垃圾回收导读
因为已经有非常好的文章介绍G1了,所以这篇文章只会提供一些我觉得特别好的文章信息,帮助大家从茫茫的信息海洋里节省时间。祝威廉如何看懂G1的GC日志非常重要,因为我们需要通过日志进一步了...
2020-05-14 17:56:23 316 1
原创 Spark GC 调优文章推荐
为什么我们需要调GC如果是在以前,ETL为王的年代,我们其实大可不必去调试,使用默认的 Parallel GC就可以了。但是随着发展,实时流计算以及AdHoc查询,对JVM的要求:高吞吐...
2020-05-12 14:32:48 358
原创 Spark 大/小文件读取优化
问题描述使用Spark写复杂SQL时,我们经常会遇到两个尴尬的情况:表里的单个文件都很大,而且因为record比较小,所以单个文件的record数量巨大。表里每个分区都有成百上千个小文件...
2020-05-08 12:56:31 2212 1
原创 SQL复用告别拷贝黏贴!兄dei, 来看看
本文将介绍如何通过MLSQL将一条又长又复杂(子查询,Join以及重复片段满天飞)的SQL简化成萌新都能看懂的SQL语句。案例来了下面一条SQL是从网上随便找的,大家可以看到,这条SQL结构上从结构上具备复杂化的潜质,子查询,Join等用的不亦乐乎。然而和真实的业务场景里的SQL复杂度比前来,这条SQL的复杂度简直是孙子级别的。image如果我们仔细思考下,我们至少发现两点:...
2020-05-07 10:32:40 50
原创 认识 Delta Lake
百花齐放的大数据生态17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在...
2020-05-06 13:32:55 659
原创 给大家引荐下我的开源项目【们】
前言从开始工作,我一直会问自己这么两个问题:1. 我有足够多的工具提升自己效率么?2. 我有足够好的平台去提升团队效率么?效率在我看来是至关重要的。关于我对效率的理解,还可以看看我这篇文...
2020-05-06 13:32:55 472
转载 数据团队规划布局感悟(三)
0x00 前言自己也没想到马上会有第三篇了。今天重点讲讲我对感悟(一)中提及的“解决方案设计团队”的看法。其实这个名字是我瞎起的,对应的是大家熟知的“算法团队”或者“机器学习团队”。0x...
2020-05-05 12:17:04 373
转载 可以【移动数据】而不是【移动计算】了
0x00 前言在进入本文的主题之前,先讲两件事。第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门...
2020-05-02 18:20:29 489
hibernate 关联保存 的困惑
2009-10-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人