离线处理和实时处理

最新推荐文章于 2024-05-23 10:33:12 发布

啊帅和和。

最新推荐文章于 2024-05-23 10:33:12 发布

阅读量1.5k

点赞数 4

分类专栏： flink专栏。大数据专栏。文章标签： spark big data 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l_dsj/article/details/121501411

版权

大数据专栏。同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

流处理和批处理

概念

sparkstreaming所做的是微批处理（每隔几秒处理一次），而flink做的是流处理（每一条数据都会处理一次）；

批处理的数据大小固定，数据可以直接在hdfs上看到
流处理是不断有数据过来的，是7*24小时不断运行的，但是数据量是可以预估的，一秒十条，整体一小时可以预估到

批处理可以做很多复杂的业务，开窗、分组聚合什么都可以，流处理只能做简单的操作，但是flink可以做一些复杂的操作

批处理的数据需要落地，有shuffle阶段，流处理从数据过来到出结果，都很迅速，及时响应

在这里插入图片描述

处理过程

1、流处理
数据采集之后先进入消息队列进行排队，做排队是为了缓冲减压，数据先放在队列中，能拿多少拿多少，然后进行处理，处理完进入数据库
在这里插入图片描述
2、批处理
批处理先进入数据库再计算

特点

离线计算，一次可以处理一年、甚至更多的数据

实时处理，再次提取数据代价很大，得重新算
在这里插入图片描述

无界流和有界流

概念

在这里插入图片描述
flink将数据抽象为流，分为无界流（有开始没有结束，Kafka数据）和有界流（有开始有结束，hdfs数据），无界的流不尽，有界的流完就结束了

实时计算的挑战

在这里插入图片描述
数据处理的唯一性：
只处理一次，
至少一次->可能有重复数据，
最多一次->可能会丢数据

可扩展：可以在一个服务器运行，也可以在很多台服务器运行

感谢阅读，我是啊帅和和，一位大数据专业大四学生，祝你快乐。

啊帅和和。

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
离线处理和实时处理

流处理和批处理的区别无界流和有界流离线计算和实时计算的特点感谢阅读，我是啊帅和和，一位大数据专业大四学生，祝你快乐。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

啊帅和和。 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。