【Spark】spark streaming

Spark Streaming是准实时流处理框架,以微批处理方式处理数据。其核心概念是时间间隔,数据源包括Kafka等。DStream是其基本抽象,由连续的RDD组成。处理流程涉及Driver、Receiver和Executor。常用算子包括transform、updateStateByKey、reduceByKeyAndWindow等。HA策略包括Driver重启和代码层面处理。Spark Streaming整合Kafka有两种模式:receiver模式和direct模式,各有优缺点。反压机制能动态调整数据接收速率,避免内存溢出。关键配置如预写日志、blockInterval和接收速率等影响性能。
摘要由CSDN通过智能技术生成

一、简介

Spark Streaming是一种准实时的流式计算框架,它对数据处理的单位是一批而不是一条,在数累积到设置的时间间隔后,对数据进行统一的微批处理。这个时间间隔是Spark Streaming的核心概念和关键参数,直接决定了Spark Streaming作业的数据处理延迟,当然也决定了吞吐量和性能。实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现。

二、底层原理

Spark Streaming中基本的抽象是离散流(DStream),DStream代表的是一个连续的数据流,它的底层实际上是由一系列连续的RDD组成的。每个RDD包含确定时间间隔内的数据,这些离散的RDD连在一起,组成了对应的DStream。所以对DStream的操作,实际上都转化成了对一系列的RDD操作。想要学好Spark Streaming,不妨先把Spark最底层的RDD弄明白。

三、执行流程

1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值