Flink在实时计算平台和实时数据仓库中的作用

最新推荐文章于 2024-03-11 13:53:25 发布

王知无(import_bigdata)

最新推荐文章于 2024-03-11 13:53:25 发布

阅读量708

点赞数

分类专栏： Flink系统性学习专栏

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/112756761

版权

Flink系统性学习专栏同时被 2 个专栏收录

256 篇文章 102 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大数据成神之路

254 篇文章 157 订阅

订阅专栏

本文探讨了Flink在实时计算平台中的应用，包括其架构、容错机制和反压处理。此外，文章还阐述了Flink在实时数据仓库中的优势，如状态管理、丰富的API和生态完善。美团的实时计算平台实例展示了Flink如何与其他组件（如Kafka、Redis和HBase）配合，构建实时数仓的分层架构。

摘要由CSDN通过智能技术生成

声明：本系列博客为原创，最先发表在拉勾教育，其中一部分为免费阅读部分。被读者各种搬运至各大网站。所有其他的来源均为抄袭。

《2021年最新版大数据面试题全面开启更新》

当前基于Hadoop的离线存储体系已经足够成熟，但是离线计算天然时效性不强，一般都是隔天级别的滞后，业务数据随着实践的推移，本身的价值会逐渐减少。越来越多的场景需要使用实时计算，这种背景下实时计算平台的需求应运而生。

架构选型

首先在架构上，Flink采用经典的主从模式，DataFlow Grapy和Storm形成的Topology结构类似，Flink程序启动后，会根据用户的代码处理成Stream Grapy，然后优化成为JobGrapy，JobManager会根据JobGrapy生成ExecutionGrapy。ExecutionGrapy才是Flink真正能执行的数据结构，当很多个ExecutionGrapy分布在集群中，就会形成一张网状的拓扑结构。

其次在容错方面，针对以前Spark Streaming任务，可以配置对应的checkpoint，也就是保存点（检查点）。当任务出现failover的时候，会从checkpoint重新加载，使得数据不丢失。但是这个过程会导致原来的数据重复使用，不能做到“只处理一次”的语义。Flink基于两阶段提交实现了端到端的一次处理语义。

在任务的反压上，Flink没有使用

了解本专栏

超级会员免费看

王知无(import_bigdata)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
Flink在实时计算平台和实时数据仓库中的作用

声明：本系列博客为原创，最先发表在拉勾教育，其中一部分为免费阅读部分。被读者各种搬运至各大网站。所有其他的来源均为抄袭。《2021年最新版大数据面试题全面开启更新》当前基于Hadoop的离线存储体系已经足够成熟，但是离线计算天然时效性不强，一般都是隔天级别的滞后，业务数据随着实践的推移，本身的价值会逐渐减少。越来越多的场景需要使用实时计算，这种背景下实时计算平台的需求应运而生。架构选型首先在架构上，Flink采用经典的主从模式，DataFlow Grapy和Storm形...
复制链接

扫一扫