Kafka

最新推荐文章于 2024-10-07 23:07:14 发布

欧阳喇嘛

最新推荐文章于 2024-10-07 23:07:14 发布

阅读量92

点赞数

分类专栏： Kafka 文章标签： kafka zookeeper 分布式

本文链接：https://blog.csdn.net/liangfangwei/article/details/121781755

版权

Kafka 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Kafka是一个分布式消息中间件，用于处理实时数据流。它通过提供消息缓冲，实现生产者和消费者速度的解耦，以及削峰填谷的能力。Kafka架构包括生产者、集群、消费者和ZK协调。生产者根据特定策略选择分区，通过发送ACK确保消息可靠性。消费者以消费者组形式工作，保证分区的唯一消费。ZK存储消费位置，确保消费者能从上次停止的地方恢复消费。Kafka利用分区和副本提高系统稳定性和吞吐量。

摘要由CSDN通过智能技术生成

文章目录

1. 什么是kafka

消息中间件

2.为什么要有kafka呢？

缓冲

有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况

削峰

使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

3.kafka架构图

3.1 组成

1.生产者

既然topic有多个分区那么发送消息发往哪个分区呢？

（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；

（2）没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值；

（3）既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition 值。
那么生产者发消息的可靠性怎么保证呢？

为保证 producer 发送的数据，能可靠的发送到指定的 topic，topic 的每个 partition 收到 producer 发送的数据后，都需要向 producer 发送 ack（acknowledgement 确认收到），如果 producer 收到 ack，就会进行下一轮的发送，否则重新发送数据。

什么时候发ack呢？
什么时候发ACK呢？

可以设置不同的ack 设置是否等leader收到发消息还是leader和所有follower收到发消息还是只管发不等呢

2.kafka集群

borker
- topic主题
  
  1.为什么要有主题呢？
  
  为了将消息分门别类如果没有topic 而且是所有消息直接存到broker中那么下游就不容易区分了
  
  2.为什么主题要分区呢？
  
  如果没有分区生产者发送的消息都往一个topic中发送那么并发度就很低。如果有不同分区那么发送消息可以同时向一个主题的多个分区发
  
  3.分区为什么要有leader和foller呢？
  
  稳定性保障。如果分区没有leader和follower 如果borker宕机那么该broker上的分区就会丢失导致下游消费不到数据。如果有了不同broker上follower 实时同步leader中的数据此时一个节点宕机 follower提升为leader 继续供下游消费。

3.消费者

消费者组

1.为什么多个消费者组成的消费者组一个分区同时只能被一个消费者组者中的一个消费者消费？

如果同时消费同一个分区那么导致消费的数据重复。为什么要有消费者组呢为了提高消费能力一个组中的不同消费者可以同时消费一个主题的不同分区。最好的消费速度是消费者组中消费者等于主题分区个数

2.消费者只消费leader分区的数据如果leader和flower数据不同步且leder挂掉此时会不会导致找不到上次消费位置呢？

不会因为消费者所消费数据leader分区的最大位置,是follower中最小的同步位置。所以leader挂掉一定可以找到上次消费的位置，虽然保证不重复消费但不能保证不丢数据
既然有消费者组那么消费者组中的消费者怎么分配topic的分区呢？

一个轮训

一个范围

4.ZK

协调整个kafka集群
存储消费者消费数据的位置offset

1.为什么要存储消费的位置呢？

如果没有存储消费者的消费数据的位置,消费者重启又将从头消费导致重复消费。

2.消费者宕机重启 kafka是怎样快速从上次终止位置重新开始消费的呢？

拿着offset去分区文件下查找到指定的索引文件这个所以文件中存放着offset和具体位置的对应关系,查找到数据位置直接从指定log文件指定位置开始恢复消费