第一章 Flink学习入门之Flink的诞生

山谷佬码农

已于 2022-05-19 09:49:13 修改

阅读量203

点赞数

分类专栏：大数据文章标签： big data flink

于 2022-05-19 00:07:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliu110/article/details/124853070

版权

Apache Flink是一个用于处理无界和有界数据流的分布式计算引擎，旨在提供低延迟和高可靠性。文章介绍了Flink的诞生背景，对比了Lambda架构和Kappa架构的优缺点，强调了Flink作为统一解决方案的优势，能够支持实时流处理和批处理，确保数据的正确性。

摘要由CSDN通过智能技术生成

Flink学习之Flink的诞生

一、Flink是什么？

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。

二、诞生背景

1. Lambda架构

基于批量数据的计算系统（MapReduce 作业）很难做到低延迟，用 Storm 开发的实时流处理技术可以帮助解决延迟性的问题，但是Storm 不支持 exactly-once 语义，因此不能保证状态数据的正确性，另外它也不支持基于事件时间的处理。将上述两个方案结合起来，既保证低延迟，又保障正确性。这个方法被称作 Lambda 架构，它通过批量 MapReduce作业提供了虽有些延迟但是结果准确的计算，同时通过Storm将最新数据的计算结果初步展示出来。
在这里插入图片描述
数据流进入系统后，同时发往Batch Layer和Speed Layer处理。Batch Layer以不可变模型离线存储所有数据集，通过在全体数据集上不断重新计算构建查询所对应的Batch Views。Speed Layer处理增量的实时数据流，不断更新查询所对应的Realtime Views。Serving Layer响应用户的查询请求，合并Batch View和Realtime View中的结果数据集到最终的数据集。

缺点
实时与批量计算结果不一致引起的数据口径问题
批量计算在

最低0.47元/天解锁文章

山谷佬码农

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。