【Spark】spark streaming

最新推荐文章于 2022-09-12 15:44:16 发布

这里有个程序员儿

最新推荐文章于 2022-09-12 15:44:16 发布

阅读量272

点赞数 2

分类专栏： Spark 大数据文章标签： spark

本文链接：https://blog.csdn.net/qq_39164068/article/details/89409088

版权

Spark Streaming是准实时流处理框架，以微批处理方式处理数据。其核心概念是时间间隔，数据源包括Kafka等。DStream是其基本抽象，由连续的RDD组成。处理流程涉及Driver、Receiver和Executor。常用算子包括transform、updateStateByKey、reduceByKeyAndWindow等。HA策略包括Driver重启和代码层面处理。Spark Streaming整合Kafka有两种模式：receiver模式和direct模式，各有优缺点。反压机制能动态调整数据接收速率，避免内存溢出。关键配置如预写日志、blockInterval和接收速率等影响性能。

摘要由CSDN通过智能技术生成

一、简介

Spark Streaming是一种准实时的流式计算框架，它对数据处理的单位是一批而不是一条，在数累积到设置的时间间隔后，对数据进行统一的微批处理。这个时间间隔是Spark Streaming的核心概念和关键参数，直接决定了Spark Streaming作业的数据处理延迟，当然也决定了吞吐量和性能。实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，数据库等，方便实时展现。

二、底层原理

Spark Streaming中基本的抽象是离散流（DStream），DStream代表的是一个连续的数据流，它的底层实际上是由一系列连续的RDD组成的。每个RDD包含确定时间间隔内的数据，这些离散的RDD连在一起，组成了对应的DStream。所以对DStream的操作，实际上都转化成了对一系列的RDD操作。想要学好Spark Streaming，不妨先把Spark最底层的RDD弄明白。

三、执行流程

1、我们在集群中的其中一台机器上提交我们的Application Jar，然后就会产生一个Application，开启一个Driver，然

最低0.47元/天解锁文章

这里有个程序员儿

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Spark】spark streaming

一、简介Spark Streaming是一种准实时的流式计算框架，它对数据处理的单位是一批而不是一条，在数累积到设置的时间间隔后，对数据进行统一的微批处理。这个时间间隔是Spark Streaming的核心概念和关键参数，直接决定了Spark Streaming作业的数据处理延迟，当然也决定了吞吐量和性能。实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TC...
复制链接

扫一扫

专栏目录