分布式
kisimple
这个作者很懒,什么都没留下…
展开
-
Flink如何实现动态表与静态表的Join操作
当前Flink版本(1.5),Table API与SQL都只支持流表与流表之间的Join操作,然而很多业务场景都需要流表与静态表之间的Join。原创 2019-04-22 20:24:23 · 6988 阅读 · 3 评论 -
Flink HDFS Sink 如何保证 exactly-once 语义
经过源码层面的分析可以看到,对exactly-once语义的保证,是通过引入中间状态(in-progress及pending)和最终可用状态(finished)来实现的,是一种两阶段提交(2PC)的方案。原创 2018-11-12 20:32:01 · 5197 阅读 · 5 评论 -
Spark TeraSort 实现与调优
参考ehiggs/spark-terasort以及RDD#sortBy的代码,我自己实现了一个Spark的TeraSort程序。原创 2018-03-12 20:38:03 · 4230 阅读 · 1 评论 -
SparkSQL如何实现聚合下推
通过Physical Plan可以看到数据源通过PrunedFilteredScan#buildScan接口返回数据给到SparkSQL,下层的HashAggregate执行部分聚合,Exchange进行shuffle,最后由上层的HashAggregate进行最终聚合。原创 2018-03-05 13:14:47 · 4940 阅读 · 11 评论 -
SparkSQL性能分析与优化及相关工具小结
前段时间的工作是将内部一个OLAP系统Hxxx作为一个数据源接入到SparkSQL并进行优化。本文总结下调优过程当中一些可以借鉴与讨论的地方,鉴于本人水平有限,还请有这方面调优经验的同学不吝赐教 ^_^原创 2018-03-02 21:24:38 · 12180 阅读 · 3 评论 -
Storm基本原理
然而大规模实时数据处理的需求与日俱增,缺少一个“实时的Hadoop”已经成为数据处理领域最大的缺憾。翻译 2015-03-05 00:03:04 · 1209 阅读 · 0 评论