Spark Streaming大规模流式处理

本文详细介绍了Spark Streaming的架构、原理和优化。它是一个可伸缩的实时流处理框架,处理数据源包括Kafka、Flume等。核心概念Discretized Streams (DStreams)是一系列RDD的集合,数据按时间切片处理。文章讨论了无状态、有状态和窗口操作,并展示了Twitter数据收集、窗口操作的实际应用。同时,提到了性能优化策略,如调整Batch Size、内存使用和数据清理。
摘要由CSDN通过智能技术生成

1.1概述:
Spark Streaming架构概述和原理
Spark Streaming案例集锦
源码分析与性能优化

1.2 Spark Streaming架构概述和原理
What is Spark Streaming?
是规模的,可伸缩的,实时流处理。
这里写图片描述
Spark Streaming的数据来源除了上述kafka,flume,HDFS/S3,Kinsesis,Twitter之外,还可以来源TCP sockets网站发来的数据,并且可以使用高级函数例如,map,join,reduce和window,来构建复杂的算法。最后被处理过的数据也可以被保存在hdfs,Databases, Dashboards里面。并且可以用流处理来处理图计算和机器学习。
这里写图片描述
在Spark Streaming内部实现是接收到输入数据之后,以时间为分片对数据进行批次处理。,切分好数据分片之后,Spark Engine对数据进行计算,最后,产生一批又一批的处理后的数据。对于每一批的处理batch是并行处理的。例如,一秒产生一批,如果前一秒的还没处理完,下一秒的将不会被计算,这时候就会产生阻塞。因此这里面的时间设置也是一个优化点。
这里写图片描述
数据是串行输入的,每个batch处理是并行的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值