kafka基本信息

最新推荐文章于 2024-07-22 16:17:17 发布

程序员杂谈

最新推荐文章于 2024-07-22 16:17:17 发布

阅读量3k

点赞数

分类专栏：大数据文章标签： p2p kafka java

本文链接：https://blog.csdn.net/trecn001/article/details/123299249

版权

大数据专栏收录该内容

16 篇文章 1 订阅

订阅专栏

1、基本信息
1）Kafka组成：zk里面存储broker信息消费者信息唯独没有生产者信息。
2）搭建多少台Kafka：2（生产者峰值生产速率 * 副本/100）+1 =3
2 * ( 生产者峰值生产速率* 2/100)+1=3 =>生产者峰值生产速率<50m/s
50m/s*60秒=3g
3）副本数：2个居多、3个
好处：提高可靠性；坏处：增加了网络IO
4）压测（生产者峰值生产速率）消费速率
5）默认数据保存多久
7天=》3天
6）Kafka的磁盘预留多大空间
100g数据*2个副本*3天/0.7=
7）数据量计算
100万日活 1个人100条日志 100万*100条=1亿条
平均速度是的多少 1亿条/(24*3600s)=1150条/s
每秒多少m 1条日志1k => 1m/s
生产环境，你的数据量什么时候达到峰值？618 1111
早上中午、晚上晚上8点以后只要不超过50m/s就行 20-30m/s
8）分区数设置多少？
先设置一个分区；
压测他的峰值生产速率tp; 峰值消费速率tc
用户有个期望的吞吐量 p
p/min(tp,tc)=分区数 P 100m/s tp 20m/s tc 30m/s
100/20 = 5个分区（3-10个）
消费者要有对应的CPU核数
9）ISR 主要解决Leader挂了谁当老大？在ISR队列里面都有机会当老大；
旧版：延迟时间和延迟条数；新版：延迟时间
10）分区分配策略
range(默认) 容易导致数据倾斜
10个 3个分区
0 1 2 3
4 5 6
7 8 9
round robin 能够减少数据倾斜
hash 随机打散，再采用轮询的方式；
11）监控Kafka
eagle Kafkamanager Kafkamontor