kafka问题总结

weixin_41827053

已于 2023-08-29 10:16:32 修改

阅读量72

点赞数

分类专栏： Kafka 文章标签： kafka java

于 2023-05-16 20:26:28 首次发布

本文链接：https://blog.csdn.net/weixin_41827053/article/details/130712609

版权

Kafka 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Kafka基础架构

在这里插入图片描述

（1）Producer：消息生产者，就是向Kafka broker发消息的客户端。
（2）Consumer：消息消费者，向Kafka broker取消息的客户端。
（3）Consumer Group（CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。
（4）Broker：一台Kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。
（5）Topic：可以理解为一个队列，生产者和消费者面向的都是一个topic。
（6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。
（7）Replica：副本。一个topic的每个分区都有若干个副本，一个Leader和若干个Follower。
（8）Leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是Leader。
（9）Follower：每个分区多个副本中的“从”，实时从Leader中同步数据，保持和Leader数据的同步。Leader发生故障时，某个Follower会成为新的Leader。

讲一讲 kafka 的 ack 的三种机制

0：生产者发送过来的数据，不需要等数据落盘应答。
1：生产者发送过来的数据，Leader收到数据后应答。
-1（all）：生产者发送过来的数据，Leader+和isr队列里面的所有节点收齐数据后应答。默认值是-1，-1和all是等价的。

Sender线程什么时候从RecordAccumulator中拉取消息发送到Kafka Broker

batch.size:只有数据积累到batchsize之后，sender才会发送数据。默认16
klinger.ms:如果数据迟迟未达到bateh.size，sender等待lingers设置的时间到了之后就会发送数据。单位ms，默认值是0ms，表示没有延迟。

只要上面两个条件有一个满足就行。

数据完全可靠性条件

ACK级别设置为-1+ 分区副本大于等于2+ ISR里应答的最小副本数量大于等于2

ISR里应答的最小副本数量大于等于2=正常响应的副本数

Kafka副本基本信息

（1）Kafka副本作用：提高数据可靠性。
（2）Kafka默认副本1个，生产环境一般配置为2个，保证数据可靠性；太多副本会增加磁盘存储空间，增加网络上数据传输，降低效率。
（3）Kafka中副本分为：Leader和Follower。Kafka生产者只会把数据发往Leader，然后Follower找Leader进行同步数据。
（4）Kafka分区中的所有副本统称为AR（Assigned Repllicas）。
AR = ISR + OSR
ISR，表示和Leader保持同步的Follower集合。如果Follower长时间未向Leader发送通信请求或同步数据，则该Follower将被踢出ISR。该时间阈值由replica.lag.time.max.ms参数设定，默认30s。Leader发生故障之后，就会从ISR中选举新的Leader。
OSR，表示Follower与Leader副本同步时，延迟过多的副本。

Kafka副本有哪些作用

多个follower副本通常存放在和leader副本不同的broker中。通过这样的机制实现了高可用，当某台机器挂掉后，其他follower副本也能迅速“转正”，开始对外提供服务。
在kafka中，实现副本的目的就是冗余备份，且仅仅是冗余备份，所有的读写请求都是由leader副本进行处理的。follower副本仅有一个功能，那就是从leader副本拉取消息，尽量让自己跟leader副本的内容一致。

follower副本为什么不对外提供服务？

这个问题本质上是对性能和一致性的取舍。如果follower对外提供服务，首先，性能是肯定会有所提升的。但同时，会出现一系列问题。类似数据库事务中的幻读，脏读。（因为需要数据的同步，如果未同步完，就会出现数据的问题）
比如现在写入一条数据到kafka主题a，消费者b从主题a消费数据，却发现消费不到，因为消费者b去读取的那个分区副本中，最新消息还没写入。而这个时候，另一个消费者c却可以消费到最新那条数据，因为它消费了leader副本。

weixin_41827053

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kafka问题总结

（6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。（9）Follower：每个分区多个副本中的“从”，实时从Leader中同步数据，保持和Leader数据的同步。-1（all）：生产者发送过来的数据，Leader+和isr队列里面的所有节点收齐数据后应答。（8）Leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是Leader。
复制链接

扫一扫

专栏目录