SparkStreaming如何优雅的停止服务_spark.streaming.stopgracefullyonshutdown-CSDN博客

我们都知道SparkStreaming程序是一个长服务，一旦运转起来不会轻易停掉，那么如果我们想要停掉正在运行的程序应该怎么做呢？

如果运行的是spark on yarn模式直接使用

yarn application -kill  taskId

暴力停掉sparkstreaming是有可能出现问题的，比如你的数据源是kafka，已经加载了一批数据到sparkstreaming中正在处理，如果中途停掉，这个批次的数据很有可能没有处理完，就被强制stop了，下次启动时候会重复消费或者部分数据丢失。

如何解决？

1.4之前的版本，需要一个钩子函数：

sys.ShutdownHookThread 
         {
            log.info("Gracefully stopping Spark Streaming Application")
            ssc.stop(true, true)
            log.info("Application stopped")
          }

1.4之后的版本，比较简单，只需要在SparkConf里面设置下面的参数即可：

sparkConf.set("spark.streaming.stopGracefullyOnShutdown","true")

然后，如果需要停掉sparkstreaming程序时：

（1）登录spark ui页面在executors页面找到driver程序所在的机器

（2）使用ssh命令登录这台机器上，执行下面的命令通过端口号找到主进程然后kill掉

ss -tanlp |  grep 55197|awk '{print $6}'|awk  -F, '{print $2}'|xargs kill -15

注意上面的操作执行后，sparkstreaming程序，并不会立即停止，而是会把当前的批处理里面的数据处理完毕后才会停掉，此间sparkstreaming不会再消费kafka的数据，这样以来就能保证结果不丢和重复。

此外还有一个问题是，spark on yarn模式下，默认的情况driver程序的挂了，会自动再重启一次，作为高可用，也就是上面的操作你可能要执行两次，才能真能的停掉程序，当然我们也可以设置驱动程序一次挂掉之后，就真的挂掉了，这样就没有容灾机制了，需要慎重考虑：

--conf spark.yarn.maxAppAttempts=1

上面的步骤还是有点复杂的，当然在网上有朋友提出在HDFS上建立一个文件，通过程序主动扫描来判断是否应该停止，这样的话不需要经历前面停止的繁琐的方式，后面有机会可以尝试一下。