流计算处理系统入门

最新推荐文章于 2023-07-21 10:42:01 发布

叩钉吧zz

最新推荐文章于 2023-07-21 10:42:01 发布

阅读量173

点赞数

分类专栏：知识点总结文章标签： hadoop big data spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40827685/article/details/125361905

版权

知识点总结专栏收录该内容

24 篇文章 2 订阅

订阅专栏

时间可以划分成两种

处理时间：数据抵达流计算系统开始进行处理的时间。数据被处理的时间。
事件时间：被检测系统获得数据的时间。一般用时间戳的方式携带在数据中。

处理时间晚于数据事件时间。

流计算框架

Hadoop: 批处理框架：
采集的数据全存入HDFS，并使用MapReduce进行批处理。处理结果存储在HDFS/分布式数据库中。需要时候使用Hive查询
spark: 微批处理框架。
将流数据分割成一系列微小的批处理作业。

Spark将数据抽象成DStream, 由弹性分布式数据集RDD进行滑动窗口或数据切分进行管理。每一个微批处理作业都围绕RDD进行处理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
流计算处理系统入门

流计算处理系统时间可以划分两种...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。