Spark学习笔记：Spark Streaming数据存储与调优

最新推荐文章于 2024-05-25 20:31:37 发布

SetsunaMeow

最新推荐文章于 2024-05-25 20:31:37 发布

阅读量1.7k

点赞数

分类专栏： Spark Spark Streaming 文章标签： Spark Spark Streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lrxcmwy2/article/details/82778432

版权

目录

Spark Streaming数据存储与调优

一.缓存与持久化机制

二.Checkpoint机制

三.部署、升级和监控应用程序

1.部署应用程序

2.升级应用程序

3.监控应用程序

4.容错机制以及事务语义详解

5.Spark Steraming架构原理

Spark Streaming数据存储与调优

一.缓存与持久化机制

与RDD类似，Spark Streaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中，对DStream调用persist()方法，就可以让Spark Streaming自动将该数据流中的所有产生的RDD都持久化到内存中。如果要对一个DStream多次执行操作，那么，对DSteram持久化是非常有用的。因为多次操作，可以共享使用内存中的一份缓存数据。

对于基础窗口的操作，比如reduceByWindow、reduceByKeyAndWindow，以及基于状态的操作，比如updateStateByKey，默认就隐式开启了持久化机制，即Spark Streaming默认就会将上述操作产生的DStream中的数据，缓存到内存中，不需要开发人员手动调用persist()方法。

对于通过网络接收数据的输入流，比如Socket、Kafka、Flume等，默认的持久化级别是将数据复制一份，以便于容错，相当于用的是MEMORY_ONLY_SER_2。

与Spark Core中的RDD不同的是，默认的持久化级别，统一都是要序列化的。

二.Checkpoint机制

每一个Spark Streaming应用，正常来说都是要7x24小时运转的，这就是实时计算程序的特点。要持续不断的对数据进行计算，必须要能够对于应用程序逻辑无关的失败进行容错。

对于一些将多个batch的数据进行聚合的，有状态的transformation操作，这是非常有用的。在这种transformation操作中，生成的RDD是依赖之前的batch中的RDD的，这样就会随着时间的推移，依赖链条越来越长，从而导致失败恢复时间也变得越来越差。有状态的transformation操作执行过程当中产生的RDD要定期的被checkpoint到可靠的存储上，这样做可以消减RDD的依赖链条，从而缩短恢复时间。

当使用了有状态的transformation操作时，必须要开启checkpoint机制，提供checkpoint目录。

注意，并不是所有的Spark Streaming应用程序都要启用checkpoint机制

如何启用Checkpoint机制

配置一个文件系统（比如HDFS）的目录，作为checkpoint目录
使用StreamingContext的checkpoint方法，填入配置好的目录作为参数即可

三.部署、升级和监控应用程序

1.部署应用程序

需要有一个集群资源管理器，比如standalone模式下的Spark集群，Yarn模式下的Yarn集群等
打包应用程序为一个jar包
为Executor配置充足的内存，比如如果你要执行窗口长度为10分钟的窗口操作，那么Executor的内存资源就必须足够保存10分钟内的数据
配置checkpoint

2.升级应用程序

如果能够允许多个客户端读取各自独立的数据，也就是读取相同数据的时候，可以直接启动升级后的Spark应用程序，先与旧的Spark应用程序并行执行，确保新的程序没有问题之后，再将旧的程序停掉
如果是支持缓存的数据源（如Flume，Kafka等），可以用stop方法先关闭已经在运行的应用程序，然后将升级后的程序部署上去，再启动，这样不会有数据的丢失，如果是不支持缓存的数据源，就会导致数据的丢失

3.监控应用程

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark学习笔记：Spark Streaming数据存储与调优

Spark Streaming数据存储与调优
复制链接

扫一扫

专栏目录

SetsunaMeow CSDN认证博客专家 CSDN认证企业博客

码龄8年

58: 原创

39万+: 周排名

63万+: 总排名

15万+: 访问

: 等级

1679: 积分

109: 粉丝

116: 获赞

18: 评论

591: 收藏

私信

关注

热门文章

分类专栏

Oracle 4篇
MySQL
Linux 1篇
Java 1篇
Hadoop 1篇
Mapreduce
Hive 4篇
Hbase 4篇
Sqoop 1篇
Flume 5篇
Scala 4篇
Spark 15篇
Spark Streaming 10篇
Kafka 8篇
码出高效
LeetCode题解
学习笔记 2篇
Python 10篇
工作手记
Dataphin
数据仓库

最新评论

HBase学习笔记：使用BulkLoad特性快速导入海量数据
Thomas2143: 为什么 "仅适合初次数据导入" ?
HBase学习笔记：使用BulkLoad特性快速导入海量数据
daydreameryyyy: 请教一下，这个问题解决了吗
HBase学习笔记：使用BulkLoad特性快速导入海量数据
万万使不得: 你好，我想问一下添加了hbase的lib后，类能找到了，但是报了下面这个错，本地这个类里是有这个方法的，hbase lib下的jar里也有这个方法，不知道哪里出了问题 [code=java] Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.HdfsDataInputStream.getReadStatistics()Lorg/apache/hadoop/hdfs/DFSInputStream$ReadStatistics; at org.apache.hadoop.hbase.io.FSDataInputStreamWrapper.updateInputStreamStatistics(FSDataInputStreamWrapper.java:253) at org.apache.hadoop.hbase.io.FSDataInputStreamWrapper.close(FSDataInputStreamWrapper.java:300) at org.apache.hadoop.hbase.io.hfile.HFile.isHFileFormat(HFile.java:653) at org.apache.hadoop.hbase.io.hfile.HFile.isHFileFormat(HFile.java:634) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.visitBulkHFiles(LoadIncrementalHFiles.java:1071) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.discoverLoadQueue(LoadIncrementalHFiles.java:987) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.prepareHFileQueue(LoadIncrementalHFiles.j [/code]
Kafka学习笔记：Kafka的Topic、Partition和Message
扯淡的工程师: replicas的数量和服务器数量差不多吧，还是我理解错了
HBase学习笔记：使用BulkLoad特性快速导入海量数据
爱吃大盘鸡的小菜鸡: 您好，我不太懂MapReduce，我看到在mapper类里不是只写了一个put吗，但是txt里有两行数据啊，如果txt里有一千行数据呢？每行数据都会运行一次map方法吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。