【Flink原理和应用】：Blink做了哪些改进

最新推荐文章于 2022-09-28 14:33:19 发布

hxcaifly

最新推荐文章于 2022-09-28 14:33:19 发布

阅读量2k

点赞数

分类专栏： Flink Flink原理和应用

本文链接：https://blog.csdn.net/hxcaifly/article/details/88952600

版权

本文介绍了Blink在Flink基础上的改进，包括Runtime的可插拔Shuffle策略和自定义调度器，SQL/TableAPI的Query Processor与二进制数据结构BinaryRow，Hive兼容性的提升，以及Zeppelin和Flink Web的用户体验优化。Blink实现了更高效的任务恢复机制，优化了SQL执行效率，并增强了资源管理和监控能力。

摘要由CSDN通过智能技术生成

1. Runtime

引入了可插拔的Shuffle策略。
自定义调度器，开发者根据计算模型自身的特点定制不同调度器。
Blink可以更加灵活地将算子chain在一起，避免不必要的数据传输。
引入全新的JM FailOver机制，JM 发生错误之后，新的 JM 会重新接管整个 JOB 而不是重启 JOB，从而大大减少了 JM FailOver 对 JOB 的影响。

2. SQL/TableAPI

提出了全新的 Query Processor（QP）：它包括了一个优化层（Query Optimizer）和一个算子层（Query Executor）。这样一来，流计算和批计算的在这两层大部分的设计工作就能做到尽可能地复用。
SQL 和 TableAPI 的程序最终执行的时候将不会翻译到 DataStream 和 DataSet 这两个 API 上，而是直接构建到可运行的 DAG 上来，这样就使得物理执行算子的设计不完全依赖底层的 API，有了更大的灵活度，同时执行代码也能够被灵活的 codegen 出来。
Blink 引入了二进制的数据结构 BinaryRow，极大的减少了数据存储上的开销以及数据在序列化和反序列化上计算的开销。
引入CodeGen 技术。
Blink 加入了 miniBatch 的执行模式：使流计算减少了很多IO。
批计算方面，首先 Blink batch SQL 能够完整地跑通 TPC-H 和 TPC-DS，且性能上较Spark有3-5倍的提升。

3. Hive兼容性

最低0.47元/天解锁文章

hxcaifly

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Flink原理和应用】：Blink做了哪些改进

1. Runtime引入了可插拔的Shuffle策略。自定义调度器，开发者根据计算模型自身的特点定制不同调度器。Blink可以更加灵活地将算子chain在一起，避免不必要的数据传输。引入全新的JM FailOver机制，JM 发生错误之后，新的 JM 会重新接管整个 JOB 而不是重启 JOB，从而大大减少了 JM FailOver 对 JOB 的影响。2. SQL/TableAPI...
复制链接

扫一扫

专栏目录