SparkStreaming+kafka参数设置

近期项目中对SparkStreaming+Kafka模式使用过程中需要限制单批次最大数据量,在容器节点计算出现延迟或故障时进行自动降低消费频率,在此对几个参数进行分享,同时也为加深自己的印象;

 由于项目中使用的技术组件主要为SparkStreaming+Kafka+Hbase+Elasticsearch,覆盖了从数据接入-逻辑计算-结果输出几个环节,且业务需求关系,计算逻辑较为复杂,需要与Hbase进行交互,计算结果写入ES,故保障Streaming的实施性及稳定性就非常关键;

val sparkConf = new SparkConf().setAppName("...")
      //单位:毫秒,设置从Kafka拉取数据的超时时间,超时则抛出异常重新启动一个task
      .set("spark.streaming.kafka.consumer.poll.ms", "100000")
      //控制每秒读取Kafka每个Partition最大消息数(500*3*10=15000),若Streaming批次为10秒,topic最大分区为3,则每批次最大接收消息数为15000
      .set("spark.streaming.kafka.maxRatePerPartition","500")
      //开启KryoSerializer序列化
      .set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
      //开启反压
      .set("spark.streaming.backpressure.enabled"
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
spark streaming 是基于 spark 引擎的实时数据处理框架,可以通过集成 kafka 来进行数据流的处理。然而,在使用 spark streaming 进行 kafka 数据流处理时,可能会遇到一些坑。 首先,要注意 spark streamingkafka 版本的兼容性。不同版本的 spark streamingkafka 可能存在一些不兼容的问题,所以在选择版本时要特别留意。建议使用相同版本的 spark streamingkafka,以避免兼容性问题。 其次,要注意 spark streaming 的并行度设置。默认情况下,spark streaming 的并行度是根据 kafka 分区数来决定的,可以通过设置 spark streaming参数来调整并行度。如果并行度设置得过高,可能会导致任务处理过慢,甚至出现 OOM 的情况;而设置得过低,则可能无法充分利用集群资源。因此,需要根据实际情况进行合理的并行度设置。 另外,要注意 spark streamingkafka 的性能调优。可以通过调整 spark streaming 缓冲区的大小、批处理时间间隔、kafka参数等来提高性能。同时,还可以使用 spark streaming 的 checkpoint 机制来保证数据的一致性和容错性。但是,使用 checkpoint 机制可能会对性能产生一定的影响,所以需要权衡利弊。 最后,要注意处理 kafka 的消息丢失和重复消费的问题。由于网络或其他原因,可能会导致 kafka 的消息丢失;而 spark streaming 在处理数据时可能会出现重试导致消息重复消费的情况。可以通过配置合适的参数来解决这些问题,例如设置 KafkaUtils.createDirectStream 方法的参数 enable.auto.commit,并设置适当的自动提交间隔。 总之,在使用 spark streaming 进行 kafka 数据流处理时,需要留意版本兼容性、并行度设置、性能调优和消息丢失重复消费等问题,以免踩坑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值