四、Kafka Broker

坚持每天学习一点

已于 2024-03-29 17:43:47 修改

阅读量944

点赞数

分类专栏： Kafka 文章标签： kafka

于 2023-08-24 00:17:10 首次发布

本文链接：https://blog.csdn.net/hc1285653662/article/details/132418534

版权

Kafka 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

4.1 kafka Broker工作流程
- 4.1.1 Zookeeper 存储的 Kafka 信息
- 4.1.2 Kafka Broker 总体工作流程
4.2 生产经验 - 节点的服役和退役
- 4.2.1、服役新节点
- 4.2.2、退役旧节点
4.3 kafka副本
4.4 文件存储
- - 1、文件存储机制
  - 2、文件清理策略
`4.5 高效读写数据`

4.1 kafka Broker工作流程

4.1.1 Zookeeper 存储的 Kafka 信息

在这里插入图片描述

4.1.2 Kafka Broker 总体工作流程

在这里插入图片描述

4.2 生产经验 - 节点的服役和退役

自己的理解：其实就是将kafka的分区，负载到集群中的各个节点上。

4.2.1、服役新节点

新节点加入后，如何将topic每个分区的leader及其副本负载到新加入的节点上面！

4.2.2、退役旧节点

旧节点如果需要下线，如何将topic每个分区的leader及其副本负载到其余的节点上面，然后将旧节点下线

4.3 kafka副本

4.3.1、副本的作用

Kafka 副本作用：提高数据可靠性
Kafka 默认副本 1 个，生产环境一般配置为 2 个，保证数据可靠性；太多副本会增加磁盘存储空间，增加网络上数据传输，降低效率。
Kafka 中副本分为：Leader 和 Follower。Kafka 生产者只会把数据发往 Leader，然后 Follower 找 Leader 进行同步数据。
Kafka 分区中的所有副本统称为 AR（Assigned Repllicas）。

AR = ISR + OSR
ISR，表示和 Leader 保持同步的 Follower 集合。如果 Follower 长时间未向 Leader 发送通信请求或同步数据，则该 Follower 将被踢出 ISR。该时间阈值由 replica.lag.time.max.ms参数设定，默认 30s。Leader 发生故障之后，就会从 ISR 中选举新的 Leader。

OSR，表示 Follower 与 Leader 副本同步时，延迟过多的副本

4.3.2、Leader的选举流程

选举规则：在isr中存活为前提，按照AR中排在前面的优先。例如ar[1,0,2], isr [1，0，2]，那么leader就会按照1，0，2的顺序轮询。
在这里插入图片描述

3、 Leader 和 Follower 故障处理细节

两个概念：

LEO（Log End Offset）：每个副本的最后一个offset，LEO其实就是最新的offset + 1
HW（High Watermark）：所有副本中最小的LEO

4、分区副本分配

如果 kafka 服务器只有 4 个节点，那么设置 kafka 的分区数大于服务器台数，在 kafka底层如何分配存储副本呢？

5、生产经验—手动分配分区副本

在生产环境中，每台服务器的配置和性能不一致，但是Kafka只会根据自己的代码规则创建对应的分区副本，就会导致个别服务器存储压力较大。所有需要手动调整分区副本的存储。

`6、生产经验—Leader Partition 负载平衡`

正常情况下，Kafka本身会自动把Leader Partition均匀分散在各个机器上，来保证每台机器的读写吞吐量都是均匀的。但是如果某些broker宕机，会导致Leader Partition过于集中在其他少部分几台broker上，这会导致少数几台broker的读写请求压力过高，其他宕机的broker重启之后都是follower partition，读写请求很低，造成集群负载不均衡

·最好不要设置集群自动再平衡，因为它浪费集群大量的性能·

7、生产经验——增加副本因子

在生产环境当中，由于某个主题的重要等级需要提升，我们考虑增加副本。副本数的增加需要先制定计划，然后根据计划执行

【注意】不能直接通过命令行的方式修改副本，而是需要通过一下方式来增加副本数量！

4.4 文件存储

1、文件存储机制

1） Topic 文件的存储机制
Topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是Producer生产的数据。Producer生产的数据会被不断追加到该log文件末端，为防止log文件过大导致数据定位效率低下，Kafka采取了分片和索引机制，将每个partition分为多个segment。每个segment包括：“.index”文件、“.log”文件和.timeindex等文件。

这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号，例如：first-0。

在这里插入图片描述

3）index 文件和 log 文件详解

在这里插入图片描述

2、文件清理策略

1） Kafka 中默认的日志保存时间为 7 天，可以通过调整如下参数修改保存时间。
在这里插入图片描述

那么日志一旦超过了设置的时间，怎么处理呢？

2） Kafka 中提供的日志清理策略有 delete 和 compact 两种

delete 日志删除：将过期数据删除

compact日志压缩：对于相同key的不同value值，只保留最后一个版本。用的比较少，知道即可
在这里插入图片描述

`4.5 高效读写数据`

1）Kafka 本身是分布式集群，采用分区技术，并行度高

2）读数据采用稀疏索引，可以快速定位要消费的数据

3）顺序写磁盘
在这里插入图片描述

4）页缓存 + 零拷贝技术
零拷贝：Kafka的数据加工处理操作交由Kafka生产者和Kafka消费者处理。Kafka Broker应用层不关心存储的数据，所以就不用走应用层，传输效率高

PageCache页缓存：Kafka重度依赖底层操作系统提供的PageCache功能。当上层有写操作时，操作系统只是将数据写入PageCache。当读操作发生时，先从PageCache中查找，如果找不到，再去磁盘中读取。实际PageCache是把尽可能多的空闲内存都当做了磁盘缓存来使用
在这里插入图片描述