kafka理论

最新推荐文章于 2024-08-08 20:11:22 发布

CaptainHzc

最新推荐文章于 2024-08-08 20:11:22 发布

阅读量1.7k

点赞数

分类专栏： kafka 文章标签： kafka java 分布式

本文链接：https://blog.csdn.net/Caption_He/article/details/121203827

版权

kafka 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

定义

Kafka目前主要作为一个分布式的发布订阅式的消息系统使用。Kafka作为一个集群，运行在一台或者多台服务器上.通过 topic 对存储的流数据进行分类。每条记录中包含一个key，一个value和一个timestamp（时间戳）。

基础架构及术语

在这里插入图片描述

Producer：消息的产生者，是消息的入口。
Broker：Broker是kafka实例，Producers往Brokers里面的指定Topic中写消息，Consumers从Brokers里面拉取指定Topic的消息，然后进行业务处理，broker在中间起到一个代理保存消息的中转站。
cluster：每个集群有多个kafka的实例。每个kafka集群内的broker都有一个不重复的编号，如图中的broker-0、broker-1等……
Topic：消息的主题，可以理解为消息的分类，kafka的数据就保存在topic。在每个broker上都可以创建多个topic。
Partition：Topic的分区，每个topic可以有多个分区，分区的作用是做负载，提高kafka的吞吐量。同一个topic在不同的分区的数据是不重复的，partition的表现形式就是一个一个的文件夹！
Replication:每一个分区都有多个副本，副本的作用是做备胎。当主分区（Leader）故障的时候会选择一个备胎（Follower）上位，成为Leader。在kafka中默认副本的最大数量是10个，且副本的数量不能大于Broker的数量，follower和leader绝对是在不同的机器，同一机器对同一个分区也只可能存放一个副本（包括自己）。
Message：每一条发送的消息主体。
offset:偏移量offset记录消了费者在partition中消费到哪里，消费失败时可以重置offset达到重新消费的效果，kafka 的存储文件都是按照 offset.kafka 来命名，用 offset 做名字的好处是方便查找。例如你想找位于 2049 的位置，只要找到 2048.kafka 的文件即可。
Consumer：消费者，即消息的消费方，是消息的出口。
Consumer Group：我们可以将多个消费组组成一个消费者组，在kafka的设计中同一个分区的数据只能被消费者组中的某一个消费者消费。同一个消费者组的消费者可以消费同一个topic的不同分区的数据，这也是为了提高kafka的吞吐量！
Zookeeper：zookeeper 是一个分布式的协调组件，早期版本的kafka用zk做meta信息存储，consumer的消费状态，group的管理以及 offset的值。新版本中逐渐弱化了zookeeper的作用，但是broker依然依赖于ZK，zookeeper 在kafka中还用来选举controller 和检测broker是否存活等。

消息传输流程

在这里插入图片描述
1.Producer在写入数据的时候先从集群中获取分区的leader
2.producter 将消息发送给leader
3.leader 将消息写入本地文件
4.followers 从leader 拉取消息
5.followers将消息写入本地后向leder发送ACK
6.leader接受到所有副本的ACK后向producer发送ACK
每条消息追加到分区中，顺序写入磁盘，所以保证同一分区内的数据是有序的！
在这里插入图片描述

消息存储策略

在这里插入图片描述
谈到kafka的存储，就不得不提到分区，即partitions，创建一个topic时，同时可以指定分区数目，分区数越多，其吞吐量也越大，但是需要的资源也越多，同时也会导致更高的不可用性，kafka在接收到生产者发送的消息之后，会根据均衡策略将消息存储到不同的分区中。
在这里插入图片描述
在每个分区中，消息以顺序存储，最晚接收的的消息会最后被消费。

消费消息

在这里插入图片描述
在消费者消费消息时，kafka使用offset来记录当前消费的位置

在kafka的设计中，可以有多个不同的group来同时消费同一个topic下的消息，如图，我们有两个不同的group同时消费，他们的的消费的记录位置offset各不项目，不互相干扰。

对于一个group而言，消费者的数量不应该多余分区的数量，因为在一个group中，每个分区至多只能绑定到一个消费者上，即一个消费者可以消费多个分区，一个分区只能给一个消费者消费

因此，若一个group中的消费者数量大于分区数量的话，多余的消费者将不会收到任何消息。

消费者主动的去kafka集群的leader去拉取（pull）消息。同一Topic的一条消息只能被同一个Consumer Group内的一个Consumer消费，但多个Consumer Group可同时消费这一消息。这是Kafka用来实现一个Topic消息的广播（发给所有的Consumer）和单播（发给某一个Consumer）的手段。一个Topic可以对应多个Consumer Group。如果需要实现广播，只要每个Consumer有一个独立的Group就可以了。要实现单播只要所有的Consumer在同一个Group里。用Consumer Group还可以将Consumer进行自由的分组而不需要多次发送消息到不同的Topic。

参考
kafka官方文档
 终于有人把 kafka 原理说清楚了！
kafka介绍和使用

CaptainHzc

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kafka理论

定义Kafka目前主要作为一个分布式的发布订阅式的消息系统使用。Kafka作为一个集群，运行在一台或者多台服务器上.通过 topic 对存储的流数据进行分类。每条记录中包含一个key，一个value和一个timestamp（时间戳）。基础架构及术语Producer：消息的产生者，是消息的入口。Broker：Broker是kafka实例，Producers往Brokers里面的指定Topic中写消息，Consumers从Brokers里面拉取指定Topic的消息，然后进行业务处理，broker在中
复制链接

扫一扫

专栏目录