Spark Streaming事务处理彻底掌握

最新推荐文章于 2024-05-19 10:14:41 发布

cary_1991

最新推荐文章于 2024-05-19 10:14:41 发布

阅读量957

点赞数

分类专栏： Spark Streamin Spark Spark 版本定制大数据 IMF 文章标签： Spark版本定制 IMF Spark Spark Streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cary_1991/article/details/51346507

版权

IMF 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

Exactly once
输出不重复

A.课程的目的：根据自己的业务需要，定制开发自己需要的Spark 版本，包括Spark Bug的修复，性能的改进，功能的扩展，总之适合自己公司的维护，便于简单易理解，易维护。

B.事务处理，比如银行转账，事务的输入和输出都应该保证事务一致

一方面处理能够处理，且只被处理一次，输出能够输出且只能输出一次

一．Spark Streaming的执行架构图:

数据丢失:

1.在Receiver收到数据且通过Driver的调度Executor开始计算数据的时候，如果Driver突然崩溃，此时Executor会被Kill掉，那么Executor中的数据就会丢失，此时就必须通过例如WAL的方式，让所有的数据都通过例如HDFS的方式进行安全性容错处理，此时如果Executor中的数据丢失的话就可以通过WAL恢复回来

     当然如果还没有积累到一定程度时，Reciver崩溃了，那么数据还是会丢失一点，因为WAL这种写数据也是进行批处理写，（实时写数据会非常的耗性能)所以数据有可能丢失几条

2.数据重复读取的情况

  在Receiver收到数据且保存到了HDFS等持久化引擎但是没有来得及进行updateOffsets，此时Receiver崩溃后重启就会通过管理Kafka的zookeeper中元数据再次重复读取数据，但是此时sparkStreaming认为是成功的，但是kafka认为是失败的（因为没有offset到zookeper中）,此时就会导致数据重复消费的情况

性能损失：

1.通过WAL方式会极大的损伤SparkStreaming中Reciver接受数据的性能

2.如果通过Kafka作为数据来源的话，kafka中有数据，然后Receiver接受的时候又会有数据副本，这个时候其实是存储资源的浪费(将数据信息写在内存数据库中，那么读的时候看数据处理过没有，如果处理过就跳过)

关于Spark Streaming数据输出多次重写及其解决方案

1.为什么会有这个问题，因为SparkStreaming在计算的时候基于Spark Core,Spark Core天生会做以下事情导致

Spark Streaming的结果（部分）重复输出

   task 重试

   Job重试

   Stage重试

   慢任务推测

2.具体解决方案

设置Spark Task Max Failure次数为1

   设置spark speculation为关闭状态（因为慢任务推测其实非常消耗性能，所以关闭后可以显著的提高Spark Streaming的处理性能)

    如果按Kafka的话，job失败后可以设置kafka的auto.offset.reset为largest的方式

SparkStreaming就两点:获取数据，产生作业，但是没有解决执行的问题，执行的问题必须透过SparkContext

Driver级别的恢复时通过checkpoint来恢复，在内部都是通过SparkContext，重新构造SparkContext,StreamingContext,恢复的时候继续上一次的Job执行，当然也要恢复上一次的job

为什么要CheckPoint到Hdfs上，因为Hdfs有天生的副本机制

xactly Once的事务处理：

1.数据零丢失：必须有可靠的数据来源和可靠的的Receiver,且整个应用程序的metadata必须进行checkPoint放在Driver端，且通过WAL来保证数据安全

2.Spark Streaming1.3是的为了避免WAL的性能损失和现实Exactly once而提供了Kafka Direct API，把kafka作为文件存储系统，此时兼具有流的优势和文件系统的优势，至此

SparkStreamingKafka就构建了完美的流处理世界，所有的Executor通过Kafka ApI直接消费数据，直接管理offset,所以也不会重复消费数据

最后再次强调可以通过transform和ForeachRDD基于业务逻辑代码进行逻辑控制来实现数据不重复消费和输出不重复，这两个方法类似于Spark Streaming的后门可以控制操作

备注：

1、DT大数据梦工厂微信公众号DT_Spark
2、IMF晚8点大数据实战YY直播频道号：68917580
3、新浪微博: http://www.weibo.com/ilovepains

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cary_1991 CSDN认证博客专家 CSDN认证企业博客

码龄10年

28: 原创

112万+: 周排名

57万+: 总排名

4万+: 访问

: 等级

705: 积分

6: 粉丝

9: 获赞

2: 评论

16: 收藏

私信

关注

热门文章

分类专栏

最新评论

Linux下C/C++的单元测试CUNIT
fzm5298: 覆盖率专家winAMS获得机能安全标准ISO26262/IEC61508工具认证,是日本工业制造领域普遍使用的针对C/C++的单元/集成测试工具.winAMS是将通过交叉编译生成的原始代码作为评价代码,具有使用芯片仿真器进行仿真功能的测试工具.不仅可以对C语言编写的程序进行逻辑水平的测试,还可以对嵌入式软件特有的依存于芯片的问题点进行确认.
使用java开发spark实战
冷小鱼: 楼主幸苦了，看您的帖子终于跑起来了，但是存在以下的几个问题： 1、D://spark-1.6.0-bin-hadoop2.6//README.md 这个文件需要自己准备，里面随意写东西就好了 2、pom文件对于hidoop有些问题，这是我的pom文件 <dependencies> <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId> <version>1.7</version> <scope>system</scope> <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.10</artifactId> <version>1.6.0</version> </dependency>

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。