由于streaming流程序一旦运行起来,基本上是无休止的状态,除非是特殊情况,否则是不会停的。因为每时每刻都有可能在处理数据,如果要停止也需要确认当前正在处理的数据执行完毕,并且不能再接受新的数据,这样才能保证数据不丢不重。
同时,也由于流程序比较特殊,所以也不能直接kill -9这种暴力方式停掉,直接kill的话,就有可能丢失数据或者重复消费数据。
下面介绍如何优雅的停止streaming job。
第一种:人工手动停止
程序里设置如下参数:
sparkConf.set("spark.streaming.stopGracefullyOnShutdown","true")//优雅的关闭
然后按照下面步骤操作
通过Hadoop 8088页面找到运行的程序
打开spark UI的监控页面
打开executor的监控页面
登录Linux找到驱动节点所在的机器IP以及运行的端口号
然后执行一个封装好的命令
sudo ss -tanlp | grep 5555 |awk '{print $6}'|awk -F, '{print $2}' | sudo xargs kill -15
这种方式显然是比较复杂的。
第二种:使用HDFS系统做消息通知
在驱动程序中,加上一段代码,作用就是每隔一段时间扫描HDFS上一个文件,如果发现这个文件存在,就调用StreamContext的Stop方法,优雅的停止程序。
这里的HDFS可以换成reids、zk、hbase、db,唯一的问题就是依赖了外部的一个存储系统来达