1、基本信息
1)Kafka组成:zk里面存储broker信息 消费者信息 唯独没有生产者信息。
2)搭建多少台Kafka:2(生产者峰值生产速率 * 副本/100)+1 =3
2 * ( 生产者峰值生产速率* 2/100)+1=3 =>生产者峰值生产速率<50m/s
50m/s*60秒=3g
3)副本数:2个居多、3个
好处:提高可靠性;坏处:增加了网络IO
4)压测(生产者峰值生产速率) 消费速率
5)默认数据保存多久
7天=》3天
6)Kafka的磁盘预留多大空间
100g数据*2个副本*3天/0.7=
7)数据量计算
100万日活 1个人100条日志 100万*100条=1亿条
平均速度是的多少 1亿条/(24*3600s)=1150条/s
每秒多少m 1条日志1k => 1m/s
生产环境,你的数据量什么时候达到峰值?618 1111
早上 中午、晚上 晚上8点以后 只要不超过50m/s就行 20-30m/s
8)分区数设置多少?
先设置一个分区;
压测他的 峰值生产速率tp; 峰值消费速率tc
用户有个期望的吞吐量 p
p/min(tp,tc)=分区数 P 100m/s tp 20m/s tc 30m/s
100/20 = 5个分区 (3-10个)
消费者要有对应的CPU核数
9)ISR 主要解决Leader挂了谁当老大? 在ISR队列里面都有机会当老大;
旧版:延迟时间和延迟条数; 新版:延迟时间
10)分区分配策略
range(默认) 容易导致数据倾斜
10个 3个分区
0 1 2 3
4 5 6
7 8 9
round robin 能够减少数据倾斜
hash 随机打散,再采用轮询的方式;
11)监控Kafka
eagle Kafkamanager Kafkamontor
kafka基本信息
最新推荐文章于 2024-07-22 16:17:17 发布