实时流处理学习（一）

最新推荐文章于 2024-07-09 15:14:28 发布

无影风Victorz

最新推荐文章于 2024-07-09 15:14:28 发布

阅读量895

点赞数 1

分类专栏：大数据文章标签： flume spark kafka 流处理大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/victorzzzz/article/details/83040742

版权

大数据专栏收录该内容

39 篇文章 1 订阅

订阅专栏

MapReduce 适合离线批处理

实时流处理产生背景：

时效性高
数据量大

实时计算与流计算对比：

实时计算：延迟性低
流式计算：不断产生的数据流上计算

==综合==>实时流式计算

离线计算与实时计算的对比：

1) 数据来源

离线：HDFS 历史数据，数据量比较大

实时：消息队列（Kafka），实时新增/修改记录过来的某一笔数据

2) 处理过程

离线：MapReduce

实时：Spark(DSream / SS)

3) 处理速度

离线：慢

实时：快速

实时流计算框架：

Storm （真的实时）
Apache Spark Streaming（Spark的pai进行扩展，把数据流按照时间间隔拆成小的批处理）
IBM Stream
Yahoo! S4
LinkedIn Kafka
Flink(可以流式，可以批处理)

kafka的作用：Flume如果直接添加给Spark，在高峰期压力会很大，因此使用Kafka对高峰日志进行消除峰值。

无影风Victorz

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。