Kafka-Spark Streaming 异常: dead for group td_topic_advert_impress_blacklist
很有可能是防火墙问题
或者是C:\Windows\System32\drivers\etc\hosts
文件的问题!!!
18/10/31 17:42:58 INFO AbstractCoordinator: Discovered coordinator kafka1:9092 (id: 2147483574 rack: null) for group td_topic_advert_impress_blacklist. 18/10/31 17:43:00 INFO AbstractCoordinator: Marking the coordinator kafka1:9092 (id: 2147483574 rack: null) dead for group td_topic_advert_impress_blacklist
仅从日志我们极难定位问题的原因。经过了一大堆查找,baidu, github..
我将spark-streaming 的日志级别 从 INFO 换成了 DEBUG 终于找到了问题的原因 ,
设置日志级别
Logger.getLogger("org.apache").setLevel(Level.DEBUG)
发现
OException: Can't resolve address: kafka1:9092 at org.apache.kafka.common.network.Selector.connect(Selector.java:195)
可以看到就是域名不解析的问题:
我们只需要修改 windows 下的 host 文件即可
spark streaming kafka OffsetOutOfRangeException
从字面意思上,说是kafka topic的offset越界异常;在job中使用的是Kafka DirectStream,每成功处理一批数据,就把对应的offset更新到zookeeper中;和数组越界异常一样,offset越界应该分为头越界和尾越界,如下图所示。
kafka broker因为log.retention.hours的配置,
导致topic中有些数据被清除,而在retention时间范围内streaming job都没有把将要被清除的message消费掉,因此zk中offset落在了earliest_offset的左侧,引发异常。
原文链接 且有收藏
https://blog.csdn.net/xueba207/article/details/51174818
还有
https://www.jianshu.com/p/40aee290f484
Spark Streaming 'numRecords must not be negative
----这里是读取的offset超了
https://blog.csdn.net/xueba207/article/details/51135423