#自己动手
kisimple
这个作者很懒,什么都没留下…
展开
-
自定义Trigger解决Flink窗口延迟数据丢失问题
而在收到延迟窗口时,我们就直接就输出窗口数据并清理窗口state。原创 2020-05-12 22:27:01 · 2431 阅读 · 2 评论 -
Flink如何实现动态表与静态表的Join操作
当前Flink版本(1.5),Table API与SQL都只支持流表与流表之间的Join操作,然而很多业务场景都需要流表与静态表之间的Join。原创 2019-04-22 20:24:23 · 6988 阅读 · 3 评论 -
Spark TeraSort 实现与调优
参考ehiggs/spark-terasort以及RDD#sortBy的代码,我自己实现了一个Spark的TeraSort程序。原创 2018-03-12 20:38:03 · 4230 阅读 · 1 评论 -
SparkSQL如何实现聚合下推
通过Physical Plan可以看到数据源通过PrunedFilteredScan#buildScan接口返回数据给到SparkSQL,下层的HashAggregate执行部分聚合,Exchange进行shuffle,最后由上层的HashAggregate进行最终聚合。原创 2018-03-05 13:14:47 · 4940 阅读 · 11 评论 -
SparkSQL性能分析与优化及相关工具小结
前段时间的工作是将内部一个OLAP系统Hxxx作为一个数据源接入到SparkSQL并进行优化。本文总结下调优过程当中一些可以借鉴与讨论的地方,鉴于本人水平有限,还请有这方面调优经验的同学不吝赐教 ^_^原创 2018-03-02 21:24:38 · 12180 阅读 · 3 评论