kafka 调优

目录

一、硬件配置调优

二、生产者调优

提高吞吐量

 数据可靠

数据去重

数据有序、乱序

 三、Broker调优

服役新节点/退役旧节点

增加分区

 增加副本因子

手动调整分区副本存储

Leader Parttion 负载均衡

 自动创建主题

四、消费者调优

消费者再平衡

 指定offest消费

指定时间消费

消费者提高吞吐量

五、 总体调优

提升吞吐量

数据可靠 

合理设置分区数

单条日志大于1M

服务器挂了

六、压力测试

​编辑

 生产者压测

消费者压测


 

一、硬件配置调优

 

1、100万日活 * 没人每天产生日志100条  =  1亿条 (中型公司)
        处理日志速度  1亿条 / (24 * 3600s ) = 1150条/s
        1条日志 (0.5k - 2k 1k)
        1150条 * 1k /s  =  1m/s
        
        高峰值 (中午小高峰 8 -12 ): 1m/s  * 20倍 =  20m/s  -40m/s
        
    2、购买多少台服务器
        服务器台数= 2 * (生产者峰值生产速率 * 副本数 / 100) + 1
                   =  2  * (20m/s * 2 /100) + 1
                   = 3 台
                    
    3、磁盘选择
        kafka 按照顺序读写   机械硬盘和固态硬盘 顺序读写速度差不多
        
        1亿条  *  1k = 100g
        100g * 2个副本 * 3天 / 0.7 = 1t
        建议三台服务器总的磁盘大小  大于1t
        
    4、内存选择
        kafka  内存 = 堆内存(kafka 内部配置) + 页缓存(服务器内存)
        1)堆内存 10 -15g
        2)页缓存  segment (1g )  (分区数Leader(10) * 1g * 25%)/ 3 = 1g
        一台服务器 10g + 1g
        
    5、CPU选择    
        32cpu
    6、网络选择
   

二、生产者调优

 

 

提高吞吐量

 

 数据可靠

 

数据去重

数据有序、乱序

 

 三、Broker调优

 

 

服役新节点/退役旧节点

 

 

增加分区

分区只能增加不能减少!

 

 增加副本因子

手动调整分区副本存储

Leader Parttion 负载均衡

 自动创建主题

四、消费者调优

 

 

消费者再平衡

 

 指定offest消费

指定时间消费

 

消费者提高吞吐量

 

五、 总体调优

提升吞吐量

 

数据可靠 

合理设置分区数

 

单条日志大于1M

 

服务器挂了

 

六、压力测试

 

 生产者压测

 

    测试:
    1、batch.size=16384 linger.ms=0      9.76 MB/sec
    2、batch.size=32768 linger.ms=0     9.76 MB/sec
    3、batch.size=4096 linger.ms=0      3.81 MB/sec
    4、batch.size=4096 linger.ms=50      3.83 MB/sec
    5、batch.size=4096 linger.ms=50 compression.type=snappy   3.77 MB/sec
    6、batch.size=4096 linger.ms=50 compression.type=zstd     5.68 MB/sec
    7、batch.size=4096 linger.ms=50 compression.type=gzip      5.90 MB/sec
    8、batch.size=4096 linger.ms=50 compression.type=lz4       3.72 MB/sec
    9、batch.size=4096 linger.ms=50 buffer.memory=67108864   3.76 MB/sec

    

消费者压测

 

 

测试:
    消费者  一次处理500条   81.2066m/s
    消费者  一次处理2000条  138.0992m/s
    消费者  一次处理2000条  fetch.max.bytes=104857600   145.2033m/s

 

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark离线批处理写入Kafka调优主要包括以下几个方面: 1. 调整批处理大小:批处理大小的调整对性能有很大的影响。如果批处理太小,会导致频繁的网络通信和Kafka写入操作,降低性能。如果批处理太大,会导致内存占用过高,甚至OOM。因此,需要根据实际情况调整批处理大小。 2. 调整Kafka的参数:Kafka的参数也会影响性能。例如,可以通过调整Kafka的batch.size和linger.ms参数来优化写入性能。batch.size表示每个批次的大小,linger.ms表示等待多长时间后发送批次。通过调整这些参数,可以提高写入性能。 3. 使用Kafka分区:Kafka分区可以提高写入性能。可以将数据按照某个字段进行分区,然后将每个分区的数据写入到对应的Kafka分区中。这样可以避免数据倾斜,提高写入性能。 4. 使用Kafka生产者缓存:Kafka生产者缓存可以提高写入性能。可以将多个批次的数据缓存到生产者缓存中,然后一次性写入到Kafka中。这样可以减少网络通信和Kafka写入操作,提高写入性能。 5. 调整Spark的参数:Spark的参数也会影响性能。例如,可以通过调整Spark的executor内存和并行度来优化写入性能。通过调整这些参数,可以提高写入性能。 总之,Spark离线批处理写入Kafka调优需要综合考虑多个因素,根据实际情况进行调整,才能达到最优的性能。 ### 回答2: Spark离线批处理写入Kafka调优主要包括以下几个方面: 1. 分区设置:根据数据量和集群规模,合理设置分区数目。过多分区可能导致额外的网络开销和Kafka的处理压力,而过少分区可能无法充分利用Kafka的并发能力。 2. 批量提交:为了提高写入性能,可以将多条记录合并为一个批次进行提交。可以使用Spark的`foreachPartition`操作,将每个RDD分区的数据写入到Kafka的Producer实例中。 3. 异步提交:可以使用异步方式将消息发送给Kafka,这样可以提高处理速度。可以将每个分区的数据交给独立的线程进行发送,避免等待Kafka的响应时间对整体性能的影响。 4. 合理调整参数:根据实际情况,可以调整Kafka Producer的参数,如`acks`、`retries`、`batch.size`等。这些参数的合理设置有助于提高写入的性能和可靠性。 5. 并发性能优化:可以通过增加Kafka的分区数目来提高写入的并发性能。同时,可以调整Spark的执行资源来提高处理速度,如增加Executor和并行度,并优化内存使用。 6. 错误处理和重试机制:在写入Kafka时,可能会出现网络错误、连接中断等异常情况,为了提高写入的可靠性,需要实现适当的错误处理和重试机制,确保数据能够成功写入Kafka。 总之,通过合理设置分区、批量提交、异步发送、调整参数、优化并发性能以及实现错误处理和重试机制,可以有效地提高Spark离线批处理写入Kafka的性能和可靠性。 ### 回答3: Spark是一种用于大数据处理的强大框架,而Kafka是一种高吞吐量的分布式消息队列系统。在将Spark离线批处理结果写入Kafka时,我们可以采取一些调优策略以提高性能和效率。 首先,我们可以通过增加Spark的并行度来提高写入Kafka的性能。通过调整spark.default.parallelism参数,可以增加并行度,并将任务分配给更多的Executor,从而提高写入速度。 其次,我们可以使用Kafka的Batch Producer来提高写入性能。Batch Producer允许我们一次写入多个消息到Kafka的分区中,而不是逐条写入。这样可以减少网络开销和磁盘I/O操作,提高写入性能。 另外,我们还可以通过增加Kafka的分区数来提高写入性能。更多的分区意味着更多的并发处理能力,可以更有效地处理大量的写入请求。 另外,我们还可以调整Kafka的Producer参数来提高写入性能。比如设置acks参数为0,表示不需要等待Kafka的确认响应,可以减少写入延迟。另外,还可以调整batch.size和linger.ms参数来优化批量写入的性能和延迟。 还有一个重要的优化点是合理设置Kafka的分区副本数量和副本的分布策略。合理选择副本数量可以提高数据的冗余和存储性能,而合理的副本分布策略可以提高读写的负载均衡。 综上所述,对于Spark离线批处理写入Kafka调优,我们可以通过增加并行度、使用Batch Producer、增加Kafka分区数、调整Producer参数以及合理设置分区副本数量和分布策略来提高性能和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值