Kafka中的主题与分区

本文介绍了Kafka中的主题、分区和副本概念,强调了多分区和多副本机制的重要性。分区保证了消息的顺序性,副本提供了容灾能力。文章详细讨论了AR、ISR和OSR副本集,以及副本的选举和日志文件的HW、LEO。此外,还涵盖了Kafka主题的创建、查看、修改和删除,以及分区管理,包括优先副本选举和分区重分配。最后,提出了选择合适分区数的策略,指出分区数与Kafka性能之间的关系。
摘要由CSDN通过智能技术生成

1、主题、分区与副本

主题(Topic):Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题,而消费者负责订阅主题进行消费;

分区(Partition):主题可以分为多个分区,一个分区只属于单个主题;

  • 同一主题下的不同分区包含的消息不同(即,发送给主题的消息具体是发送到某一个分区);
  • 消息被追加到分区日志文件的时候,会分配一个特定的偏移量(offset),offset是消息在分区中的唯一标识,Kafka通过它来保证消息在分区的顺序性,
  • offset不跨分区,也就是说Kafka保证的是分区有序而不是主题有序;

副本(Replia):Kafka为分区引入了多副本机制,通过增加副本数量可以提升容灾能力。

  • 同一个分区的不同副本之间保存的是相同的消息;
  • 副本之间是一主多从的关系,其中leader副本负责处理读写请求;follower副本只负责与leader副本的消息同步;
  • 副本处于不同的broker中,当leader副本出现故障时,从follower副本重新选举新的leader副本对外提供服务。Kafka通过多副本机制实现了故障的自动转移

1.1 多分区与多副本机制

  • 主题和分区是逻辑结构,一个副本对应一个存储消息的日志文件;
  • 分区的多个副本分布在不同的broker上,所以主题和分区都是横跨broker的;
  • 一个主题下对应多个分区,通过增加分区数量可以实现水平扩展,提高性能;
  • 一个分区下有多个副本,通过多副本机制提升容灾能力;

1.2 AR、ISR和OSR副本集

AR:分区中所有副本组成的集合称为AR(Assigned Replicas);

ISR: 所有与leader副本保持一定程度同步的副本(包括leader副本)组成ISR(In-Sync Replicas);

  • 一定程度同步是指可忍受的滞后范围,这个范围可以通过参数进行配置;
  • 消息先发送到leader副本,然后follower副本才能从leader副本中拉取消息进行同步,同步期间内follower副本相对于leader副本而言会有一定程度的滞后;

OSR:与leader副本同步滞后过多的副本(不包括leader副本)组成OSR(Out-of-Sync Replicas);

说明:

  • AR=ISR+OSR
  • leader副本负责维护和跟踪ISR集合中所有follower副本的滞后状态,当follower副本落后太多或失效时,leader副本会把它从ISR集合中剔除;
  • 如果follower副本“追上”了leader副本,那么leader副本会把它从OSR集合转移至ISR集合。
  • 默认情况下,当leader副本发生故障时,只有ISR集合中的副本才有资格被选举为新的leader,不过这个原则也可以通过修改相应的参数配置来改变;

1.3 日志文件的HW、LEO

一个副本对应一个日志文件,日志文件存储消息(持久化到磁盘里)

offset:消息被追加到分区日志文件的时候都会分配一个特定的偏移量(offset),offset是消息在分区中的唯一标识;

  • offset从0开始;

HW(Hight Watermark):俗称高水位,它标识了一个特定的消息偏移量,消费者只能拉取到这个offset之前的消息;

LEO(Log End Offset):标识当前日志文件中下一条待写入消息的offset;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值