关于kafka需要知道的一些概念

最新推荐文章于 2024-07-23 11:11:07 发布

陈小顺

最新推荐文章于 2024-07-23 11:11:07 发布

阅读量1.5k

点赞数

分类专栏： Kafka 文章标签： kafka 分布式 big data

本文链接：https://blog.csdn.net/m0_48179584/article/details/122260942

版权

Kafka 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

kafka

一、名词解释

名词	解释
Broker	消息中间件处理节点，⼀个Kafka节点就是⼀个broker，⼀个或者多个Broker可以组成⼀个Kafka集群
Topic	Kafka根据topic对消息进⾏归类，发布到Kafka集群的每条消息都需要指定⼀个topic
Producer	消息⽣产者，向Broker发送消息的客户端
Consumer	消息消费者，从Broker读取消息的客户端

二、关于消息

⽣产者将消息发送给broker，broker会将消息保存在本地的⽇志⽂件中
消息的保存是有序的，通过offset偏移量来描述消息的有序性
消费者消费消息时也是通过offset来描述当前要消费的那条消息的位置

三、单播消息

在⼀个kafka的topic中，启动两个消费者，⼀个⽣产者，问：⽣产者发送消息，这条消息是否
同时会被两个消费者消费？
如果多个消费者在同⼀个消费组，那么只有⼀个消费者可以收到订阅的topic中的消息。换⾔
之，同⼀个消费组中只能有⼀个消费者收到⼀个topic中的消息。

四、多播消息

不同的消费组订阅同⼀个topic，那么不同的消费组中只有⼀个消费者能收到消息。实际上也
是多个消费组中的多个消费者收到了同⼀个消息。

五、消费组

通过以下命令可以查看到消费组的详细信息：

./kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group testGroup

在这里插入图片描述
current-offset: 最后被消费的消息的偏移量
Log-end-offset: 消息总量（最后⼀条消息的偏移量）
Lag：积压了多少条消息

六、主题Topic

主题-topic在kafka中是⼀个逻辑的概念，kafka通过topic将消息进⾏分类。不同的topic会被订阅该topic的消费者消费。
但是有⼀个问题，如果说这个topic中的消息⾮常⾮常多，多到需要⼏T来存，因为消息是会被保存到log⽇志⽂件中的。
为了解决这个⽂件过⼤的问题，kafka提出了Partition分区的概念

七、分区

1）分区的概念
通过partition将⼀个topic中的消息分区来存储。这样的好处有多个：
分区存储，可以解决统⼀存储⽂件过⼤的问题
提供了读写的吞吐量：读和写可以同时在多个分区中进⾏
在这里插入图片描述
2）创建多分区的主题

./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 2 --topic test

八、kafka中消息⽇志⽂件中保存的内容

在这里插入图片描述
00000000000000000000.log：这个⽂件中保存的就是消息

__consumer_offsets-49:
kafka内部⾃⼰创建了__consumer_offsets主题包含了50个分区。这个主题⽤来存放消费
者消费某个主题的偏移量。因为每个消费者都会⾃⼰维护着消费的主题的偏移量，也就是
说每个消费者会把消费的主题的偏移量⾃主上报给kafka中的默认主题：
consumer_offsets。因此kafka为了提升这个主题的并发性，默认设置了50个分区。
提交到哪个分区：通过hash函数：hash(consumerGroupId) % __consumer_offsets主题的分区数
提交到该主题中的内容是：key是consumerGroupId+topic+分区号，value就是当前offset的值
⽂件中保存的消息，默认保存7天。七天到后消息会被删除。

九、kafka集群中的controller、 rebalance、HW(highwater)

1.controller
集群中谁来充当controller，每个broker启动时会向zk创建⼀个临时序号节点，获得的序号最⼩的那个broker将会作为集群中的controller，负责这么⼏件事：
• 当集群中有⼀个副本的leader挂掉，需要在集群中选举出⼀个新的leader，选举的规则是从isr集合中最左边获得。
• 当集群中有broker新增或减少，controller会同步信息给其他broker
• 当集群中有分区新增或减少，controller会同步信息给其他broker

2.rebalance机制
前提：消费组中的消费者没有指明分区来消费
触发的条件：当消费组中的消费者和分区的关系发⽣变化的时候
分区分配的策略：在rebalance之前，分区怎么分配会有这么三种策略
• range：根据公示计算得到每个消费消费哪⼏个分区：前⾯的消费者是分区总数/消费者数量+1,之后的消费者是分区总数/消费者数量
• 轮询：⼤家轮着来
• sticky：粘合策略，如果需要rebalance，会在之前已分配的基础上调整，不会改变之前的分配情况。如果这个策略没有开，那么就要进⾏全部的重新分配。建议开启。

3.HW和LEO
LEO是某个副本最后消息的消息位置（log-end-offset）
HW是已完成同步的位置。消息在写⼊broker时，且每个broker完成这条消息的同步后，hw才会变化。在这之前消费者是消费不到这条消息的。
在同步完成之后，HW更新之后，消费者才能消费到这条消息，这样的⽬的是防⽌消息的丢失。
在这里插入图片描述

十、副本

在创建主题时，除了指明了主题的分区数以外，还指明了副本数，那么副本是⼀个什么概念呢？

./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 2 --topic my-topic

副本是为了为主题中的分区创建多个备份，多个副本在kafka集群的多个broker中，会有⼀个副本作为leader，其他是follower。

查看topic情况

./kafka-topics.sh --describe --zookeeper localhost:2181 --topic my–topic

在这里插入图片描述
leader：
kafka的写和读的操作，都发⽣在leader上。leader负责把数据同步给follower。当leader挂了，经过主从选举，从多个follower中选举产⽣⼀个新的leader
follower:
接收leader的同步的数据
isr：
可以同步和已同步的节点会被存⼊到isr集合中。这⾥有⼀个细节：如果isr中的节点性能较差，会被踢出isr集合。

陈小顺

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
关于kafka需要知道的一些概念

kafka一、名词解释名词解释Broker消息中间件处理节点，⼀个Kafka节点就是⼀个broker，⼀个或者多个Broker可以组成⼀个Kafka集群TopicKafka根据topic对消息进⾏归类，发布到Kafka集群的每条消息都需要指定⼀个topicProducer消息⽣产者，向Broker发送消息的客户端Consumer消息消费者，从Broker读取消息的客户端二、关于消息⽣产者将消息发送给broker，broker会将消息保存在本地的⽇志⽂
复制链接

扫一扫

专栏目录