kafka broker

最新推荐文章于 2024-07-02 23:49:23 发布

INeedAnID

最新推荐文章于 2024-07-02 23:49:23 发布

阅读量60

点赞数

文章标签： kafka

本文链接：https://blog.csdn.net/INeedAnID/article/details/132528914

版权

kafka学习笔记（课程：尚硅谷kafka3.x）

在zookeeper中要记住的kafka相关信息

/kafka/broker/ids

记录有哪些服务器

/kafka/broker/topics/first/partitions/0/state

{“leader”:1,“isr”:[1,0,2]}记录leader是谁，有哪些服务器可以用

/kafka/controller

{“brokerid”:0}
辅助选举leader

其他

consumer：消费者信息，用于保存offset。0.9之前用于保存offset，0.9版本之后offset存储在kafka主题中

broker总体工作流程

（1） broker启动后在zk中注册，在/ids中增加节点
（2） controller谁先注册，谁说了算（并没有成为leader）
（3）由选举出来的controller坚挺brokers节点变换
（4）conteoller决定Leader选举
AR：kafka分区中所有副本的统称
选举规则：
在isr中存活，AR中排在前面的优先，按照isr中的顺序轮询
（5） controller将节点信息上传到zk
（6）其他controller从zk同步相关信息
（7）如果leader挂了，则： controller监听到节点变化，从zk获取isr
（10）选举新的leader

follower故障处理细节

一些概念

LEO(Log End Offset)：每个副本的最后一个offset，就是最新的offset+1
HW(High Watermark)：所有副本中最小的LEO

故障处理

（1）如果是follower出现故障
故障的follower被踢出ISR，其他的继续接收数据。重新连上之后，原故障的follower中记录有断开之前的HW，把高于HW的部分截掉，从HW开始向leader进行同步。当其LEO大于等于该partition的HW，重新加入ISR
（2） leader挂了
踢出ISR，选出一个新的leader，其余follower截掉高于HW的部分，然后从新的leader同步数据（智能保证副本之间的一直性，并不能保证数据不丢失/不重复）

节点服役和退役

服役新节点

退役旧节点

把数据导入到其他节点上

kafka副本

kafka副本作用

提高数据可靠性
默认副本是一个，生产环境一般配置为2个
太多会增加存储空间，增加网络传输压力
副本分为leader和follower
所有副本称为AR
AR=ISR+OSR
kafka操作只针对leader，follower找leader进行同步数据
OSR：延迟过多的副本

分区副本分配

leader和follower不在同一个broker
尽量保证不同的partition的副本分配情况不一样，用过123，下一次可以用013
副本分配尽量均匀。

手动调整分区副本存储

执行副本存储计划：

bin/kafka-reassign-partitions.sh --bootstrap-server hadoop102:9092 --reassignment-json-file increase-replication-factor.json --execute

其中，json文件的内容形如：

{
“version”:1,
“partitions”:[{“topic”:“three”,“partitions”:0,“replicas”:[0,1]},
{“topic”:“three”,“partitions”:1,“replicas”:[0,1]},
{“topic”:“three”,“partitions”:2,“replicas”:[1,0]},
{“topic”:“three”,“partitions”:3,“replicas”:[1,0]}]
}
验证副本存储计划

bin/kafka-reassign-partitions.sh --bootstrap-server hadoop102:9092 --reassignment-json-file increase-replication-factor.json --verify

查看分区副本存储情况

bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --describe --topic three

以上代码来自尚硅谷kafka3.x教程，本人因为电脑内存不足不方便搞虚拟机（yin wei lan）没有试验过

leader partition自动平衡

broker宕机会导致leaderpartition过于集中在其他少部分几台broker上，导致少数几台broker的读写请求压力过高，其他重启的都是follower，读写请求很低，造成集群负载不均衡。

kafka使用自动再平衡机制进行负载均衡。
配置项：auto.leader.rebalance.enable，默认值是true
leader.imbalance.per.broker.percentage，默认是10%，每个broker允许的不平衡的leader的比例如果每个broker超过这个值，控制器会触发leader的再平衡。计算方式：当AR优先副本和leader节点不同时，不平衡数加1。不平衡比例=不平衡数/AR。
leader.imbalance.check.interval.seconds，默认值300s。检查leader负载是否平衡的间隔时间。

一般不建议开启再平衡，因为再平衡消耗大量的资源。
kafka的生产者、broker、消费者都有再平衡机制，这个地方的再平衡好像不是特别重要，用到再看吧。感觉可能讲的不太对。

生产经验——增加副本因子

某个主题需要提高可靠性，要增加副本。
不能通过命令行修稿弗恩，要手动操作

vim increase-replication-factor.json

输入的内容：

{
“version”:1,
“partitions”:[{“topic”:“four”,“partitions”:0,“replicas”:[0,1,2]},
{“topic”:“four”,“partitions”:1,“replicas”:[0,1,2]},
{“topic”:“four”,“partitions”:2,“replicas”:[1,0,2]}]
}
执行副本存储计划：

bin/kafka-reassign-partitions.sh --bootstrap-server hadoop102:9092 --reassignment-json-file increase-replication-factor.json --execute

kafka文件存储

topic是逻辑上的概念，partition是物理上的概念。每个partition对应一个log文件。（log文件也是虚拟的概念。）生产者生产的数据不断追加到log文件末端。partition以segment形式存储，单位大小为1g。每个segment包括：“.index"文件、”.log"文件、".timeindex"文件和其他文件。
".log"文件：实实在在存储数据的地方。
".index"文件：偏移量索引文件
".timeindex"文件：消费者不删除数据。kafka默认保存时间是7天。这个文件用来存储时间。
index和log文件以当前segment的第一条消息的offset命名。

使用kafka工具查看log和index信息，不然是乱码（因为是序列化后的文件）。

kafka-run-class.sh kafka.tools.DumpLogSegments--files ./00000000000000000000.index

0没数，个数可能不对。

index存储

index是稀疏存储，每往log写入4kB数据，会往index文件写入一条索引（log.index.interval.bytes）。
index文件中保存的offset为相对offset，相对于文件名中的offset。