大数据技术分享:Spark Streaming 技术点汇总

本文详细介绍了Spark Streaming的原理,包括数据批量化处理和DStream API,强调了其可扩展性、高吞吐量和容错性。文章还探讨了多种操作,如updateStateByKey、transform和窗口操作,并提供了故障恢复策略及性能调优建议,如设置合理的批次处理时间和内存管理。
摘要由CSDN通过智能技术生成

park Streaming支持实时数据流的可扩展(Scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。

架构图

特性如下:

• 可线性伸缩至超过数百个节点;

• 实现亚秒级延迟处理;

• 可与 Spark 批处理和交互式处理无缝集成;

• 提供简单的API实现复杂算法;

• 更多的流方式支持,包括 Kafka、Flume、Kinesis、Twitter、ZeroMQ 等。


001、原理

Spark 在接收到实时输入数据流后,将数据划分成批次(divides the data into batches),然后转给 Spark Engine 处理,按批次生成最后的结果流(generate the final stream of results in batches)。

 


002、API

DStream:

DStream(Discretized Stream,离散流)是 Spark Stream 提供的高级抽象连续数据流。

组成:一个 DStream 可看作一个 RDDs 序列。

核心思想:将计算作为一系列较小时间间隔的、状态无关的、确定批次的任务,每个时间间隔内接收的输入数据被可靠存储在集群中,作为一个输入数据集。

 

特性:一个高层次的函数式编程 API、强一致性以及高校的故障恢复。

应用程序模板:

模板1

 

模板2

WordCount示例

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值