1. 观察该该topic消费组 Resource-group确定为Spark-Streaming任务消费resource主题出现堆积,堆积数据20Y
2.访问spark master web ui 查看 Resource任务,发现running applications 中该没有该任务,该任务已经死掉,查看死掉应用日志发现日志中只有一句: Received signal term. 没有其他错误信息。
3. running applications总数量为10, running drivers总数量为15, 现场急于恢复任务正常。因此决定杀掉所有提交的任务重新提交.
4. 重新提交任务,任务提交后running drivers 15个,running applications 一直在8~13个之间疯狂跳动,每个任务执行10s左右自动死掉。然后driver又会重新拉起一个新的appliction,重复该过程。
5. 查看app日志发现日志中未发现有用信息,只有一句received signal term
5. 查找driver日志,发现日志中一直提示 kafka jaas鉴权配置认证未通过错误信息,发现提交的任务中为包含jaas 鉴权配置文件。
6. 查看消费的kafka配置文件中,发现以下配置已经增加
security.protocol=SASL_PLAINTEXT
sasl.mechanism=PLAIN
producer.security.protocol=SASL_PLAINTEXT
producer.sasl.mechanism=PLAIN
consumer.security.protocol=SASL_PLAINTEXT
consumer.sasl.mechanism=PLAIN
7. 查看${SPARK_