kafka系列（2）- 架构介绍和主要组件说明

最新推荐文章于 2024-06-06 20:18:07 发布

奈何@

最新推荐文章于 2024-06-06 20:18:07 发布

阅读量192

点赞数

分类专栏： # kafka 文章标签： kafka 大数据

本文链接：https://blog.csdn.net/sinat_26594945/article/details/115180200

版权

kafka 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

码字不易，先赞后看，文末有大量学习资源哦，免费领取。如果内容觉得不错，别忘记一键三连哦！！！

每一次科学家们发生分歧，都是因为掌握得数据不够充分，所以我们可以先就获取哪一类数据达成一致，只要获取了数据，问题就可以迎刃而解了，要么我是对得，要么你是对的。要不我们都是错的，然后我们继续研究。 --Neil deGrasse Tyson

1、为什么选择kafka

2、kafka内部结构

3、kafka主要组件说明

1）、kafka当中的producer说明

2）、kafka当中的topic说明

3）、kafka当中的partition说明

4）、kafka当中partition的副本数说明

5）、kafka当中的segment说明

索引文件与数据文件的关系

6）、kafka当中的partition的offset

7）、kafka分区与消费组的关系

8）、kafka当中的consumer

1、为什么选择kafka

基于发布与订阅得消息系统那么多，为什么kafka会事一个更好得选择呢

1）多个生产者

kafka可以无缝得支持多个生产者，不管客户端使用单哥主题还是多个主题，所以很适合从多个前端系统来收集数据。并以统一得数据格式对外提供数据，

2）多个消费者

kafka支持多个消费者从单独得一个消费者上读取数据，而且消费者之间是互不影响得，者与其他得消息对列系统不一样，其他得队列系统得消息一旦被一个客户端消费得时候，其他的客户端就在也无法去读取他，另外，多个消费者，可以组成一个群组，他们共享一个消息流，并保证整个群组对每一个给定的消息只消费一次。

3）基于磁盘的数据存储

消息被提交到磁盘，根据设置的规则去保存数据，每个主题可以单独的设置自己的规则。消费者可能在消费数据的时候，应为处理速度慢或者流量高峰的时候导致无法及时的获取数据，而持久化数据可以保证数据的不丢失，这个时候消费者可以离线几小时，过后再消费数据的时候，而无需担心消息的丢失或者堵塞再生产者端，消费者可以从上次终端的地方接着消费数据。

4）伸缩性

用户再开发的阶段可以先使用单个的broker，载扩展到很多的broker上。即使个别的broker失效，任然可以持续的为客户提供服务。要提高集群的容错能力。需要配置较高的复制系数。

2、kafka内部结构

说明：kafka支持消息持久化，消费端为拉模型来拉取数据，消费状态和订阅关系由

客户端负责维护，消息消费完后，不会立即删除，会保留历史消息。因此支持多订阅时，消息只会存储一份就可以了。

Broker：kafka集群中包含一个或者多个服务实例，这种服务实例被称为Broker

Topic：每条发布到kafka集群的消息都有一个类别，这个类别就叫做Topic

Partition：Partition是一个物理上的概念，每个Topic包含一个或者多个Partition

segment：一个partition当中存在多个segment文件段，每个segment分为两部分，.log文件和.index文件，其中.index文件是索引文件，主要用于快速查询.log文件当中数据的偏移量位置

Producer：负责发布消息到kafka的Broker中。

Consumer：消息消费者,向kafka的broker中读取消息的客户端

Consumer Group：每一个Consumer属于一个特定的Consumer Group（可以为每个Consumer指定 groupName）

.log:存放数据文件

.index：存放.log文件的索引数据

3、kafka主要组件说明

1）、kafka当中的producer说明

producer主要是用于生产消息，是kafka当中的消息生产者，生产的消息通过topic进行归类，保存到kafka的broker里面去

2）、kafka当中的topic说明

1、kafka将消息以topic为单位进行归类

2、topic特指kafka处理的消息源（feeds of messages）的不同分类。

3、topic是一种分类或者发布的一些列记录的名义上的名字。kafka主题始终是支持多用户订阅的；也就是说，一个主题可以有零个，一个或者多个消费者订阅写入的数据。

4、在kafka集群中，可以有无数的主题。

5、生产者和消费者消费数据一般以主题为单位。更细粒度可以到分区级别。

3）、kafka当中的partition说明

kafka当中，topic是消息的归类，一个topic可以有多个分区，每个分区保存部分topic的数据，所有的partition当中的数据全部合并起来，就是一个topic当中的所有的数据，

一个broker服务下，是否可以创建多个分区？

可以的，broker数与分区数没有关系；在kafka中，每一个分区会有一个编号：编号从0开始

每一个分区的数据是有序的

说明-数据是有序如何保证一个主题下的数据是有序的？（生产是什么样的顺序，那么消费的时候也是什么样的顺序）

topic的Partition数量在创建topic时配置。

Partition数量决定了每个Consumer group中并发消费者的最大数量。

Consumer group A 有两个消费者来读取4个partition中数据；Consumer group B有四个消费者来读取4个 partition中的数据

4）、kafka当中partition的副本数说明

kafka分区副本数（kafka Partition Replicas)

副本数（replication-factor）

副本数（replication-factor）：控制消息保存在几个broker（服务器）上，一般情况下等于broker的个数

一个broker服务下，是否可以创建多个副本因子？

不可以；创建主题时，副本因子应该小于等于可用的broker数。副本因子过程图

副本因子操作以分区为单位的。每个分区都有各自的主副本和从副本；

主副本叫做leader，从副本叫做 follower（在有多个副本的情况下，kafka会为同一个分区下的所有分区，设定角色关系：一个leader和N个 follower），处于同步状态的副本叫做in-sync-replicas(ISR);

follower通过拉的方式从leader同步数据。

消费者和生产者都是从leader读写数据，不与follower交互。

副本因子的作用：让kafka读取数据和写入数据时的可靠性。

副本因子是包含本身，同一个副本因子不能放在同一个Broker中。

如果某一个分区有三个副本因子，就算其中一个挂掉，那么只会剩下的两个中，选择一个leader，但不会在其他的broker中，另启动一个副本（因为在另一台启动的话，存在数据传递，只要在机器之间有数据传递，就会长时间占用网络IO，kafka是一个高吞吐量的消息系统，这个情况不允许发生）所以不会在零个broker中启动。

如果所有的副本都挂了，生产者如果生产数据到指定分区的话，将写入不成功。

lsr表示：当前可用的副本

5）、kafka当中的segment说明

一个partition当中由多个segment文件组成，每个segment文件，包含两部分，一个是.log文件，另外一个是.index文件，其中.log文件包含了我们发送的数据存储，.index文件，记录的是我们.log文件的数据索引值，以便于我们加快数据的查询速度

索引文件与数据文件的关系

既然它们是一一对应成对出现，必然有关系。索引文件中元数据指向对应数据文件中message的物理偏移地址

比如索引文件中3,497代表：数据文件中的第三个message,它的偏移地址为497。再来看数据文件中，Message 368772表示：在全局partiton中是第368772个message。
注：segment index file采取稀疏索引存储方式，它减少索引文件大小，通过mmap可以直接内存操作，稀疏索引为数据文件的每个对应message设置一个元数据指针,它比稠密索引节省了更多的存储空间，但查找起来需要消耗更多的时间。

6）、kafka当中的partition的offset

任何发布到此partition的消息都会被直接追加到log文件的尾部，每条消息在文件中的位置称为offset（偏移量），

offset是一个long类型数字，它唯一标识了一条消息，消费者通过（offset，partition，topic）跟踪记录。

7）、kafka分区与消费组的关系

消费组：由一个或者多个消费者组成，同一个组中的消费者对于同一条消息只消费一次。

某一个主题下的分区数，对于消费组来说，应该小于等于该主题下的分区数。如下所示：

如：某一个主题有4个分区，那么消费组中的消费者应该小于4，而且最好与分区数成整数倍

1 2 4

同一个分区下的数据，在同一时刻，不能同一个消费组的不同消费者消费

总结：分区数越多，同一时间可以有越多的消费者来进行消费，消费数据的速度就会越快，提高消费的性能

8）、kafka当中的consumer

consumer是kafka当中的消费者，主要用于消费kafka当中的数据，任何一个消费者都必定需要属于某一个消费组当中，任意时刻，一个分区当中的数据，只能被kafka当中同一个消费组下面的一

给大家准备的各类书籍都在这里啦，收集不易，期待您的一键三连，后续还会更新文章哦，谢谢您的关注和点赞，您的点赞会让我有加倍动力

链接：https://pan.baidu.com/s/1MH1eiwMv_XCCbFX3hwGu7g
提取码：70uy

https://shimo.im/docs/863dvkxgWHtwcWkh/ 《书籍》

奈何@

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
kafka系列（2）- 架构介绍和主要组件说明

码字不易，先赞后看，文末有大量学习资源哦，免费领取。如果内容觉得不错，别忘记一键三连哦！！！给大家准备的各类书籍都在这里啦，收集不易，期待您的一键三连，后续还会更新文章哦，谢谢您的关注和点赞，您的点赞会让我有加倍动力链接：https://pan.baidu.com/s/1MH1eiwMv_XCCbFX3hwGu7g提取码：70uyhttps://shimo.im/docs/863dvkxgWHtwcWkh/ 《书籍》...
复制链接

扫一扫