自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 Spark 资源自动清理

Spark运行一次SQL,根据SQL的具体执行情况,可能会产生很多垃圾。譬如你可以很容易观察到的就是在Spark UI上跑完SQL后会有Storage Memory的占用:这个应该是SQ...

2020-05-15 16:41:22 1259

原创 Java G1垃圾回收导读

因为已经有非常好的文章介绍G1了,所以这篇文章只会提供一些我觉得特别好的文章信息,帮助大家从茫茫的信息海洋里节省时间。祝威廉如何看懂G1的GC日志非常重要,因为我们需要通过日志进一步了...

2020-05-14 17:56:23 316 1

原创 Spark GC 调优文章推荐

为什么我们需要调GC如果是在以前,ETL为王的年代,我们其实大可不必去调试,使用默认的 Parallel GC就可以了。但是随着发展,实时流计算以及AdHoc查询,对JVM的要求:高吞吐...

2020-05-12 14:32:48 358

原创 Spark 大/小文件读取优化

问题描述使用Spark写复杂SQL时,我们经常会遇到两个尴尬的情况:表里的单个文件都很大,而且因为record比较小,所以单个文件的record数量巨大。表里每个分区都有成百上千个小文件...

2020-05-08 12:56:31 2212 1

原创 SQL复用告别拷贝黏贴!兄dei, 来看看

本文将介绍如何通过MLSQL将一条又长又复杂(子查询,Join以及重复片段满天飞)的SQL简化成萌新都能看懂的SQL语句。​案例来了下面一条SQL是从网上随便找的,大家可以看到,这条SQL结构上从结构上具备复杂化的潜质,子查询,Join等用的不亦乐乎。然而和真实的业务场景里的SQL复杂度比前来,这条SQL的复杂度简直是孙子级别的。image如果我们仔细思考下,我们至少发现两点:...

2020-05-07 10:32:40 50

原创 认识 Delta Lake

百花齐放的大数据生态17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在...

2020-05-06 13:32:55 659

原创 给大家引荐下我的开源项目【们】

前言从开始工作,我一直会问自己这么两个问题:1. 我有足够多的工具提升自己效率么?2. 我有足够好的平台去提升团队效率么?效率在我看来是至关重要的。关于我对效率的理解,还可以看看我这篇文...

2020-05-06 13:32:55 472

转载 数据团队规划布局感悟(三)

0x00 前言自己也没想到马上会有第三篇了。今天重点讲讲我对感悟(一)中提及的“解决方案设计团队”的看法。其实这个名字是我瞎起的,对应的是大家熟知的“算法团队”或者“机器学习团队”。0x...

2020-05-05 12:17:04 373

转载 可以【移动数据】而不是【移动计算】了

0x00 前言在进入本文的主题之前,先讲两件事。第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门...

2020-05-02 18:20:29 489

jQuery1.2API

jquery api 还是很不错的里面 可以搜索 用起来蛮方便的

2009-01-13

学习JavaFX脚本语言_翻译_.pdf

javaeye 一个博客提供过的 看了下 挺基础的 还不错

2009-01-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除