spark 终止 运行_如何优雅地停止Spark Streaming Job

本文介绍了如何优雅地停止Spark Streaming Job,避免数据丢失或重复。提供了三种方法:人工手动停止,通过HDFS系统做消息通知,以及内部暴露socket或HTTP端口接收关闭请求。推荐使用通过HDFS或HTTP服务的方式,以减少对外部系统的依赖。
摘要由CSDN通过智能技术生成

由于streaming流程序一旦运行起来,基本上是无休止的状态,除非是特殊情况,否则是不会停的。因为每时每刻都有可能在处理数据,如果要停止也需要确认当前正在处理的数据执行完毕,并且不能再接受新的数据,这样才能保证数据不丢不重。

同时,也由于流程序比较特殊,所以也不能直接kill -9这种暴力方式停掉,直接kill的话,就有可能丢失数据或者重复消费数据。

下面介绍如何优雅的停止streaming job。

第一种:人工手动停止

程序里设置如下参数:

sparkConf.set("spark.streaming.stopGracefullyOnShutdown","true")//优雅的关闭

然后按照下面步骤操作

通过Hadoop 8088页面找到运行的程序

打开spark UI的监控页面

打开executor的监控页面

登录Linux找到驱动节点所在的机器IP以及运行的端口号

然后执行一个封装好的命令

sudo ss -tanlp | grep 5555 |awk '{print $6}'|awk -F, '{print $2}' | sudo xargs kill -15

这种方式显然是比较复杂的。

第二种:使用HDFS系统做消息通知

在驱动程序中,加上一段代码,作用就是每隔一段时间扫描HDFS上一个文件,如果发现这个文件存在,就调用StreamContext的Stop方法,优雅的停止程序。

这里的HDFS可以换成reids、zk、hbase、db,唯一的问题就是依赖了外部的一个存储系统来达

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值