kafka调优参考建议 —— 筑梦之路

这里主要是从不同使用场景来调优,仅供参考。

吞吐量优先

吞吐量优先使用场景如采集日志。

1. broker配置调优

num.partitions:分区个数,设置为与消费者的线程数基本相等

2. producer配置调优

 

  • batch.size

    批量提交消息的字节数,发送消息累计大小达到该值时才会发送(或者达到linger.ms),默认16k,如果 batch 设置太小,会导致频繁网络请求,吞吐量下降;如果 batch 太大,会导致一条消息需要等待很久才能被发送出去,增加网络延时;建议设置为1M。

  • linger.ms

    发送间隔时间,默认是 0,意思就是消息必须立即被发送。如果 linger.ms 设置的太小,会导致频繁网络请求,吞吐量下降;如果 linger.ms 太长,会导致一条消息需要等待很久才能被发送出去,增加网络延时;建议设置为100ms以上。

  • compression.type

    压缩类型,默认是 none,不压缩,但是也可以使用 lz4 压缩,效率还是不错的,压缩之后可以减小数据量,提升吞吐量,但是会加大 producer 端的 CPU 开销。

  • acks

    应答机制,默认是all(0.8.x之前,默认为1),即等待所有的副本收到消息后再返回成功,可以设置成1,即leader副本确认接收到消息后,生产者会收到返回成功的信息。但如果恰好此时leader失效,该条消息就会丢失。

  • buffer.memory

    内存缓冲区大小,默认32M,当消息写入过快或者写入量过大时,Sender 线程来不及处理,造成缓存区堆积,此时会阻塞用户线程,禁止往 kafka 写入消息,一般需要根据业务场景估算一个 buffer_memory 的合理值,建议64M以上。

 3. consumer配置调优

  • fetch.min.bytes

    从broker获取消息的最小字节数,只有大于这个值时,consumer才会拉取消息,默认是1,建议设置为1048576(1M)。

  • fetch.max.wait.ms

    当fetch.min.bytes不满足时,从broker获取消息的最大等待时间,默认是500,建议设置为1000

低延时优先

 使用场景有实时数据传输,比如弹幕

1. broker配置调优

  • num.partitions

    分区个数,设置为与消费者的线程数基本相等。

  • num.io.threads

    默认是8。负责写磁盘的线程数。整个参数值要占总核数的50%。

  • num.replica.fetchers

    默认是1。副本拉取线程数,这个参数占总核数的50%的1/3。

  • num.network.threads

    默认是3。数据传输线程数,这个参数占总核数的50%的2/3

2. producer配置调优​​​​​

  • linger.ms

    设置为0,即有消息就发送。

  • compression.type

    设置为nonenone。

  • acks

    设置为0,异步发送,无需等待任何broker确认

3. consumer配置调优

  • fetch.min.bytes

    设置为1,一有消息就消费。

  • 线程数

    消费者的并发线程数能满足实时消费的要求,避免积压

可靠性优先

 将kafka作为核心数据源,不允许kafka出现数据丢失情况的业务架构。

1. broker配置调优

  • default.replication.factor

    至少设置为3,2/3机器挂掉够,依然不影响数据的可靠性。

  • min.insync.replicas

    当生产者的ack设置为all时,必须满足该数量的副本同步成功后才能继续写入。当default.replication.factor设置为3时,该值建议设置为2。

  • unclean.leader.election.enable

    不洁leader选举,默认true,建议设置为false,即不允许不在ISR列表中的broker参加leader的选举,否则会导致已经提交但是还未复制的消息的丢失

2. producer配置调优

  • acks

    设置为all,等待ISR中的所有副本收到数据后再返回成功。

  • retries

    重试次数,建议>=3

3. consumer配置调优 

enable.auto.commit: 是否开启自动提交,默认true,在设置为true时与auto.commit.interval.ms(自动提交时间间隔)配合使用,有点是简单,省去了偏移量提交逻辑,缺点是会存在重复消费和消息丢失的情况,在数据可靠性优先的场景下需要设置为false,当事务提交后再提交位移。

可用性优先

 将kafka作为核心依赖,不允许kafka出现长时间不可用情况的业务架构(对数据可靠性要求不高,不阻塞读写就行)

1. broker配置调优

  • unclean.leader.election.enable

    设置为true,允许不洁的副本当选leader。

  • min.insync.replicas

    设置为1。

  • num.recovery.threads.per.data.dir

    启动时用于日志恢复和关闭时用于刷新的每个数据目录的线程数,默认为1,建议设置为1,减少重启时加载日志的时间。

2. producer配置调优

acks : 设置为0,不等待任何确认,直接返回成功。

  • 57
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark离线批处理写入Kafka调优主要包括以下几个方面: 1. 调整批处理大小:批处理大小的调整对性能有很大的影响。如果批处理太小,会导致频繁的网络通信和Kafka写入操作,降低性能。如果批处理太大,会导致内存占用过高,甚至OOM。因此,需要根据实际情况调整批处理大小。 2. 调整Kafka的参数:Kafka的参数也会影响性能。例如,可以通过调整Kafka的batch.size和linger.ms参数来优化写入性能。batch.size表示每个批次的大小,linger.ms表示等待多长时间后发送批次。通过调整这些参数,可以提高写入性能。 3. 使用Kafka分区:Kafka分区可以提高写入性能。可以将数据按照某个字段进行分区,然后将每个分区的数据写入到对应的Kafka分区中。这样可以避免数据倾斜,提高写入性能。 4. 使用Kafka生产者缓存:Kafka生产者缓存可以提高写入性能。可以将多个批次的数据缓存到生产者缓存中,然后一次性写入到Kafka中。这样可以减少网络通信和Kafka写入操作,提高写入性能。 5. 调整Spark的参数:Spark的参数也会影响性能。例如,可以通过调整Spark的executor内存和并行度来优化写入性能。通过调整这些参数,可以提高写入性能。 总之,Spark离线批处理写入Kafka调优需要综合考虑多个因素,根据实际情况进行调整,才能达到最优的性能。 ### 回答2: Spark离线批处理写入Kafka调优主要包括以下几个方面: 1. 分区设置:根据数据量和集群规模,合理设置分区数目。过多分区可能导致额外的网络开销和Kafka的处理压力,而过少分区可能无法充分利用Kafka的并发能力。 2. 批量提交:为了提高写入性能,可以将多条记录合并为一个批次进行提交。可以使用Spark的`foreachPartition`操作,将每个RDD分区的数据写入到Kafka的Producer实例中。 3. 异步提交:可以使用异步方式将消息发送给Kafka,这样可以提高处理速度。可以将每个分区的数据交给独立的线程进行发送,避免等待Kafka的响应时间对整体性能的影响。 4. 合理调整参数:根据实际情况,可以调整Kafka Producer的参数,如`acks`、`retries`、`batch.size`等。这些参数的合理设置有助于提高写入的性能和可靠性。 5. 并发性能优化:可以通过增加Kafka的分区数目来提高写入的并发性能。同时,可以调整Spark的执行资源来提高处理速度,如增加Executor和并行度,并优化内存使用。 6. 错误处理和重试机制:在写入Kafka时,可能会出现网络错误、连接中断等异常情况,为了提高写入的可靠性,需要实现适当的错误处理和重试机制,确保数据能够成功写入Kafka。 总之,通过合理设置分区、批量提交、异步发送、调整参数、优化并发性能以及实现错误处理和重试机制,可以有效地提高Spark离线批处理写入Kafka的性能和可靠性。 ### 回答3: Spark是一种用于大数据处理的强大框架,而Kafka是一种高吞吐量的分布式消息队列系统。在将Spark离线批处理结果写入Kafka时,我们可以采取一些调优策略以提高性能和效率。 首先,我们可以通过增加Spark的并行度来提高写入Kafka的性能。通过调整spark.default.parallelism参数,可以增加并行度,并将任务分配给更多的Executor,从而提高写入速度。 其次,我们可以使用Kafka的Batch Producer来提高写入性能。Batch Producer允许我们一次写入多个消息到Kafka的分区中,而不是逐条写入。这样可以减少网络开销和磁盘I/O操作,提高写入性能。 另外,我们还可以通过增加Kafka的分区数来提高写入性能。更多的分区意味着更多的并发处理能力,可以更有效地处理大量的写入请求。 另外,我们还可以调整Kafka的Producer参数来提高写入性能。比如设置acks参数为0,表示不需要等待Kafka的确认响应,可以减少写入延迟。另外,还可以调整batch.size和linger.ms参数来优化批量写入的性能和延迟。 还有一个重要的优化点是合理设置Kafka的分区副本数量和副本的分布策略。合理选择副本数量可以提高数据的冗余和存储性能,而合理的副本分布策略可以提高读写的负载均衡。 综上所述,对于Spark离线批处理写入Kafka调优,我们可以通过增加并行度、使用Batch Producer、增加Kafka分区数、调整Producer参数以及合理设置分区副本数量和分布策略来提高性能和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值