【Flink原理和应用】:Blink做了哪些改进

本文介绍了Blink在Flink基础上的改进,包括Runtime的可插拔Shuffle策略和自定义调度器,SQL/TableAPI的Query Processor与二进制数据结构BinaryRow,Hive兼容性的提升,以及Zeppelin和Flink Web的用户体验优化。Blink实现了更高效的任务恢复机制,优化了SQL执行效率,并增强了资源管理和监控能力。
摘要由CSDN通过智能技术生成

1. Runtime

  1. 引入了可插拔的Shuffle策略。
  2. 自定义调度器,开发者根据计算模型自身的特点定制不同调度器。
  3. Blink可以更加灵活地将算子chain在一起,避免不必要的数据传输。
  4. 引入全新的JM FailOver机制,JM 发生错误之后,新的 JM 会重新接管整个 JOB 而不是重启 JOB,从而大大减少了 JM FailOver 对 JOB 的影响。

2. SQL/TableAPI

  1. 提出了全新的 Query Processor(QP):它包括了一个优化层(Query Optimizer)和一个算子层(Query Executor)。这样一来,流计算和批计算的在这两层大部分的设计工作就能做到尽可能地复用。
  2. SQL 和 TableAPI 的程序最终执行的时候将不会翻译到 DataStream 和 DataSet 这两个 API 上,而是直接构建到可运行的 DAG 上来,这样就使得物理执行算子的设计不完全依赖底层的 API,有了更大的灵活度,同时执行代码也能够被灵活的 codegen 出来。
  3. Blink 引入了二进制的数据结构 BinaryRow,极大的减少了数据存储上的开销以及数据在序列化和反序列化上计算的开销。
  4. 引入CodeGen 技术。
  5. Blink 加入了 miniBatch 的执行模式:使流计算减少了很多IO。
  6. 批计算方面,首先 Blink batch SQL 能够完整地跑通 TPC-H 和 TPC-DS,且性能上较Spark有3-5倍的提升。

3. Hive兼容性

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值