Spark Streaming性能优化:如何最大程度的确保Spark Cluster和Kafka连接的稳定性
Kafka:topic下面有Message,用线程池并发读取数据
调大这两个配置,增加稳定性。由于GC过程可能会很慢,所以适当增加参数值
zookeeper.connection.timeout.ms -> 10000 连接的时候
zookeeper.session.timeout.ms -> 6000 ACK确认
如果session超时的后果:
1、Zookeeper对KafkaReceiver进行重新分配,这个过程中的数据会丢失
2、网络不稳定
zookeeper.syn.time.ms -> 2000