流/批/OLAP一体的Flink引擎

最新推荐文章于 2024-07-16 14:35:43 发布

Popcorn丶30

最新推荐文章于 2024-07-16 14:35:43 发布

阅读量694

点赞数

文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cblock1/article/details/126011117

版权

本文详细介绍了Apache Flink作为流式计算引擎的崛起原因、整体架构和流批一体的实现方式。Flink通过统一的Dataflow模型、Scheduler层和Shuffle Service层实现了流批一体，降低了人力成本和数据不一致问题。此外，文章还探讨了Flink在OLAP场景下的优化，以支持高并发查询和低延迟性能。

摘要由CSDN通过智能技术生成

1.Flink概述

1.1为什么需要流式计算

大数据的实时性带来的价值更大，比如：

1、监控场景：实时发现业务系统的健康状态，提前避免业务障碍

2、金融风控：实时监测出异常交易行为，及时阻断风险产生

3、实时推荐：应用根据用户的行为数据发掘用户的兴趣、偏好，向用户推荐更感兴趣的内容 ...

大数据实时性的需求，带来了大数据计算架构模式的变化

批式计算(以前)：离线计算(非实时)，静态数据集，小时/天等周期性计算

流式计算(现在)：实时计算，快速、低延迟，无限流、动态、无边界， 7*24h持续运行，流批一体

1.2为什么Apache Flink会脱颖而出

(1)流式计算引擎发展历程如果从Google对外发布MapReduce论文算起，已经前后跨越将近二十年，业内常用的计算框架演化历史 (红框是流式计算框架)

（2）流式计算引擎对比

(3)Flink官方介绍

Apache Flink是一个可以基于无界和有界数据集之上有状态计算的框架和分布式处理引擎

关于Flink：Exactly-Once(精确一次的计算语义)、状态容错(Checkpoint)、Dataflow(Window等高阶需求支持友好)、流批一体

1.3Flink开源生态

2.Flink整体架构

2.1Flink分层架构

1、SDK层：分三类：SQL/Table、DataStream、Python;

2、执行引擎层(Runtime层)：执行引擎层提供了统一的DAG,用来描述数据处理的Pipeline,不管是流还是批，都会转化为DAG图，调度层再把

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。