Kafka学习四:深入kafka

集群成员关系

Kafka 使用 Zookeeper 来维护集群成员的信息。每个 broker 都有一个唯一标识符,这个标识符可以在配置文件里指定 ,也可以自动生成。在 broker 启动的时候,它通过创建临时节点把自己的 ID 注册到 Zookeeper。 Kafka 组件(指生产者、消费者、broker)订阅 Zookeeper 的/brokers/ids 路径(broker在Zookeeper上的注册路径),当有 broker 加入集群或退出集群时,这些组件就可以获得通知。
如果你要启动另一个具有相同 ID的broker ,就会得到一个错误一一 broker 会试着进行注册,但不会成功,因为 Zookeeper 里已经有一个具有相同ID的broker。
当broker 停机、出现网络分区或长时间垃圾回收停顿时, broker 会从 Zookeeper 上断开连接,此时 broker 在启动时创建的临时节点会自动从 Zookeeper 上移除。监听 broker 列表的Kafka 组件会被告知该 broker 已移除。
在关闭 broker 时,它对应的节点也会消失,不过它的 ID 会继续存在于其他数据结构中,例如,主题的副本列表里就可能包含这些ID。在完全关闭一个 broker后,如果使用相同的ID启动另一个全新的 broker ,它会立即加入集群,井拥有与旧 broker相同的分区和主题。

控制器

本篇简而言之,Kafka 使用 Zookeeper 的临时节点来选举控制器, 并在节点加入集群或退出集群时通知控制器。控制器负责在节点加入或离开集群时进行分区首领选举控制器使用 epoch 来避免“脑裂”。“脑裂”是指两个节点同时认为自己是当前的控制器。

控制器其实就是 broker ,只不过它除了具有一般 broker 的功能之外,还负责分区首领的选举。集群里第一个启动的 broker 通过Zookeeper 里创建一个临时节点/controller让自己成为控制器。其他broker 在启动时也会尝试创建这个节点,不过它们会收到个“节点已存在”的异常,然后“意识”到控制器节点已存在,也就是说集群里已经有一个控制器了。其他broker 在控制器节点上创建Zookeeper watch 对象(在broker上),这样它们就可以收到这个节点的变更通知。这种方式可以确保集群次只有一个控制器存在。

如果控制器被关闭或者与 Zookeeper 断开连接, Zookeeper 上的临时节点就会消失。集群里的其他 broker 通过 watch 对象得到控制器节点消失的通知,它们会尝试让自己成为新的控制器。第一个在Zookeeper 里成功创建控制器节点的 broker 就会成为新的控制器,其他节点会收到“节点已存在”的异常,然后在新的控制器节点上再次创建 watch 对象。每个新选出的控制器通过 Zookeeper 的条件递增操作获得一个全新的、数值更大的controller epoch。其他 broker 在知道当前 controller epoch 后,如果收到由控制器发出的包含较旧的epoch 的消息,就会忽略它们。

当控制器(也是一个broker)发现一个 broker 已经离开集群(通过观察相关的 Zookeeper 路径),它就知道,那 些失去首领的分区需要一个新首领(这些分区的首领刚好是在这个 broker 上)。控制器遍 历这些分区,并确定谁应该成为新首领(简单来说就是分区副本列表里的下一个副本), 然后向所有包含新首领或现有跟随者的 broker 发送请求。该请求消息包含了谁是新首领以 及谁是分区跟随者的信息。随后,新首领开始处理来自生产者和消费者的请求,而跟随者开始从新首领那里复制消息

当控制器发现一个 broker 加入集群时,它会使用 broker ID 来检查新加入的 broker 是否包含现有分区的副本。如果有,控制器就把变更通知发送给新加入的 broker 和其他 broker, 新 broker 上的副本开始从首领那里复制消息。

复制

复制功能是 Kafka 架构的核心。在 Kafka 的文档里, Kafka 把自己描述成“一个分布式的、 可分区的、可复制的提交日志服务”。复制之所以这么关键,是因为它可以在个别节点失效时仍能保证Kafka 的可用性和持久性。
Kafka 使用主题来组织数据,每个主题被分为若干个分区,每个分区有多个副本。那些副本被保存在 broker 上,每个 broker 可以保存成百上千个属于不同主题和分区的副本。
副本有以下两种类型。

  1. 首领副本
    每个分区都有一个首领副本。 为了保证一致性,所有生产者请求和消费者请求都会经过这个副本。首领副本需要知道哪个跟随者的状态与自己是一致的。跟随着为了与首领保持同步,在有新消息到达时,就向首领发送获取数据的请求,这种请求与消费费者为了读取消息而发送的请求是一样的。首领将响应消息发给跟随者。请求消息里包含了跟随者想要获取消息的偏移量,而且这些偏移量总是有序的。 不过有各种原因会导致同步失败。 例如,网络拥塞导致复制变慢, broker 发生崩溃导致复制滞后,直到重启 broker 后复制才会继续。
  2. 跟随者副本
    首领以外的副本都是跟随者副本。跟随者副本不处理来自客户端的请求,它们唯一的任务就是从首领那里复制消息,保持与首领一致的状态。如果首领发生崩溃,其中的一个跟随者会被提升为新首领。

首领如何确认哪个跟随者副本和自己是消息同步的?
一个跟随者副本先请求消息 1 ,接着请求消息 2,然后请求消息 3,在收到这 3 个请求的响应之前,它是不会发送第 4 个请求消息的。如果跟随者发送了请求消息 4,那么首领就知道它已经收到了前面 3 个请求的响应。 通过查看每个跟随者请求的最新偏移量,首领就会知道每个跟随者复制的进度。如果跟随者在 10s 内没有请求任何消息,或者虽然在请求消 息,但在 10s 内没有请求最新的数据,那么它就会被认为是不同步的。
如果一个副本无法与首领保持一致,在首领发生失效时,它就不可能成为新首领一一毕竟它没有包含全部的消息。 相反,持续请求得到的最新消息副本被称为同步的副本。在首领发生失效时,只有同步副本才有可能被选为新首领。
跟随者的正常不活跃时间或在成为不同步副本之前的时间是通过replica.lag.time.max.ms参数来配置的。这个时间间隔直接影响着首领选举期间的客户端行为和数据保留机制。(后面会详细解释)
除了当前首领之外,每个分区都有首选首领,创建题时选定的首领就是分区的首选首领。之所以把它叫作首选首领,是因为在创建分区时,需要在 broker 之间均衡首领(后面会介绍在 broker 间分布副本和首领的算怯)。因为我 希望首选首领在成为真正的首领时, broker 间的负载最终会得到均衡。默认情况下Kafka的auto.leader.rebalance 被设为 true ,它会检查首选首领是不是当前首领 ,如果不是,并且该副本是同步的,那么就会触发首领选举,让首选首领成为当前首领。要确保首选首领被传播到其他 broker 上,避免让包含了首领的 broker 负载过重,而其他broker却巳无法为它们分担负载。

处理请求

Kafka内部请求流程是,broker 会在它所监听的每 个端口上运行Acceptor线程,这个线程会创建一个连接,并把它交给 Processor 线程去处理。 Processor 线程(也被叫作“网络线程”)的数量是可配置的。网络线程负责从客户端获取请求消息,把它们放进请求队列,然后从响应队列取响应消息,把它们发送给客户端。请求消息被放到请求队列后, 10 线程会负责处理它们。
在这里插入图片描述
Kafka有几种常见的请求类型:
1、生产请求
生产者发送的请求,它包含客户端要写入broker的消息。
2、获取请求
在消费者和跟随者副本需要从broker读取消息时发送的请求。

生产请求和获取请求都必须发送给分区的首领副本。如果broker 收到一个针对特定分区的请求,而该分区的首领在另一个broker 上,那么发送请求的客户端会收到 个“非分区首领”的错误响应。当针对特定分区的获取请求被发送到一个不含有该分区首领的 broker上,也会出现同样的错误。 Kafka 客户端要自己负责把生产请求和获取请求发送到正确的broker 上。

那么客户端怎么知道该往哪里发送请求呢?
客户端使用了另一种请求类型,也就是元数据请求。这种请求包含了客户端感兴趣的主题列表。服务器端的响应消息里指明了这些主题所包含的分区、每个分区都有哪些副本, 以及哪个副本是首领。元数据请求可以发送给任意一个 broker ,因为所有 broker 都缓存了这些信息。
一般情况下,**客户端会把这些信息缓存起来,并直接往目标 broker 上发送生产请求和获取请求。**它们需要时不时地通过发送元数据请求来刷新这些信息(刷新的时间间隔通过metedata.max.age.ms 参数来配置),从而知道元数据是否发生了变更一一比如,在新broker 加入集群时,部分副本会被移动到新 broker 上(如图 5-2 所示)。另外,如果客户端收到“非首领”错误,它会在尝试重发请求之前先刷新元数据,因为这个错误说明了客户端正在使用过期的元数据信息,之前的请求被发到了错误的 broker
在这里插入图片描述

生产请求

acks 这个配置参数一一该参数指定了需要多少个 broker 确认才可以认为 个消息写入是成功的。不同的配置对“ 写入成功”的界定是不一样的,如果 acks=1 ,那么只要首领收到消息就认为写入成功;如果 acks=all ,那么需要所有同步副本收到消息才算写入成功;如果 ack=0 ,那么生产者在把消息发出去后,完全不需要等待 roker 的响应。
包含首领副本的 broker 在收到生产请求时,会对请求做一些验证。

  • 发送数据的用户是否有主题写入权限?
  • 请求里包含的 acks 值是否有有效?(只允许0,1,all)
  • 是否有足够多的同步副本保证消息已经被安全写入?

之后,消息被写入本地磁盘。在 Linux 系统上,消息会被写到文件系统缓存里,并不保证它们何时会被刷新到磁盘上。Kafka不会一直等待数据被写到磁盘上一一它依赖复制功能来保证消息的持久性。在消息被写入分区的首领之后, broker 开始检 acks 配置参数一一如果 acks 被设为0或1,那么 broker 立即返回响应;如果 acks 被设为 all ,那么请求会被保存在一个叫作炼狱的缓冲区里,直到首领发现所有跟随者副本都复制了消息,响应才会被返回给客户端。

获取请求

broker 处理获取请求的方式与处理生产请求的方式很相似。客户端发送请求,向 broker请求主题分区里具有特定偏移量的消息,好像在说 “请把主题 Test 分区偏移量从 53 开始的消息以及主题 Test 分区偏移量从 64 开始的消息发给我。”客户端还可以指定 broker最多可以从一个分区里返回多少数据。这个限制是非常重要的,因为客户端需要为 broker返回的数据分配足够的内存。如果没有这个限制, broker 返回的大量数据有可能艳尽客户的内存。
请求需要先到达指定的分区首领上,然后客户端通过查询元数据来确保请求的路由是正确的。首领在收到请求时,它会先检查请求是否有效一一比如,指定的偏移量在分区上是否存在?如果客户端请求的是已经被删除的数据,或者请求的偏移量不在,那么 broker 将返回一个错误。
如果请求的偏移量存在, broker 将按照客户端指定的数量上限从分区里读取消息,再把消息返回给客户端。 Kafka 使用零复制技术向客户端发送消息一一也就是说, Kafka 直接把消息从文件(或者更确切地说是 Linux文件系统缓存)里发送到网络通道,而不需要经过任何中间缓冲区。这是 Kafka 与其他大部分数据库系统不一样的地方,其他数据库在将数据发送给客户端之前会先把它们保存在本地缓存里。这项技术避免了字节复制,也不需要管理内存缓冲区,从而获得更好的性能。
客户端除了可以设置 broker 返回数据的上限,也可以设置下限。例如,如果把下限设置为10KB,就好像是在告诉 broker :“等到有10KB数据的时候再把它们发送给我。”在主题消息流量不是很大的情况下,这样可以减少 CPU 和网络开销。客户端发送一个请求, broker等到有足够的数据时才把它们返回给客户端,然后客户端再发出请求,而不是让客户端每隔几毫秒就发送一次请求,每次只能得到很少的数据甚至没有数据。对比这两种情况,它们最终读取的数据总量是一样的,但前者的来回传送次数更少,因此开
销也更小。
在这里插入图片描述
当然 ,我们不会让客户端一直等待 broker 累积数据。在等待了一段时间之后,就可以把可用的数据拿回处理,而不是一直等待下去。所以,客户端可以定义一个超时时间,告诉broker :“如果你无法在X毫秒内累积满足要求的数据量,那么就把当前这些数据返回给我。"
有意思的是,并不是所有保存在分区首领上的数据都可以被客户端读取。大部分客户端只能读取已经被写入所有同步副本的消息(跟随者副本也不行,尽管它们也是消费者——否则复制功能就无法工作)。分区首领知道每个消息会被复制到哪个副本上,在消息还没有被写入所有同步副本之前,是不会发送给消费者的一一尝试获取这些消息的请求会得到空的响应而不是错误。
因为还没有被足够多副本复制的消息被认为是“不安全”的一一如果首领发生崩溃,另个副本成为新首领,那么这些消息就丢失了。如果我们允许消费者读取这些消息,可能就会破坏一致性。试想, 一个悄费者读取并处理了这样的一个消息,而另一个消费者发现这个消息其实并不存在。 所以,我们会等到所有同步副本复制了这些消息,才允许消费者读取它们。这也意味着,如果 broke 间的消息复制因为某些原因变慢,那么消息到达消费者的时间也会随之变长(因为我们会先等待消息复制完毕)。延迟时间可以通过参数replica.lag.time.max.ms来配置,它指定了副本在复制消息时可被允许的最大延迟时间。
在这里插入图片描述

物理存储

Kafka 的基本存储单元是分区。分区无法在多个 broker 间进行再细分,也无法在同一个 broker 的多个磁盘上进行再细分。 所以,分区的大小受到单个挂载点可用空间的限制(一 个挂载点由单个磁盘或多个磁盘组成,如果配置了 JBOD,就是单个磁盘,如果配置了 RAID,就是多个磁盘)
在配置 Kafka 的时候,管理员指定了一个用于存储分区的目录清单一一也就是log.dirs参数的值(不要把它与存放错误日志的目录混淆了,日志目录是配置在 log4j.properties 文件里的)。该参数一般会包含每个挂载点的目录。

分区分配

在创建主题时, Kafka 首先会决定如何在 broker 间分配分区。假设你有 6 个 broker,打算创建一个包含 10 个分区的主题,并且复制系数为 3。那么Kafka 就会有 30 个分区副本, 它们可以被分配给 6 个 broker。在进行分区分配时,我们要达到如下的目标。

  • 在 broker 间平均地分布分区副本。对于我们的例子来说,就是要保证每个 broker 可以分到 5 个副本。
  • 确保每个分区的每个副本分布在不同的 broker 上。假设分区 0 的首领副本在 broker 2 上, 那么可以把跟随者副本放在 broker3 和 broker4 上,但不能放在 broker2 上,也不能两个都放在 broker 3 上。
  • 如果为 broker 指定了机架信息,那么尽可能把每个分区的副本分配到不同机架的broker上。这样做是为了保证一个机架的不可用不会导致整体的分区不可用。

为了实现这个目标,我们先随机选择一个 broker (假设是 4),然后使用轮询的方式给每 个 broker 分配分区来确定首领分区的位置。于是,首领分区 0 会在 broker 4 上,首领分区1会在 broker 5 上,首领分区2会在 broker 0 上(只有 6 个 broker),并以此类推。然后,我们从分区首领开始,依次分配跟随者副本。如果分区 0 的首领在 broker 4 上,那么它的 第一个跟随者副本会在 broker 5 上,第二个跟随者副本会在 broker 0上。分区 1 的首领在broker 5 上,那么它的第一个跟随者副本在 broker 0上,第二个跟随者副本在 broker 1上。
如果配置了机架信息,那么就不是按照数字顺序来选择 broker 了,而是按照交替机架的方式来选择 broker。假设 broker 0、 broker 1 和 broker 2 放置在同一个机架上, broker 3、 broker 4 和 broker 5 分别放置在其他不同的机架上。我们不是按照从 0 到 5 的顺序来选择 broker,而 是按照 0, 3, 1, 4, 2, 5 的顺序来选择,这样每个相邻的 broker 都在不同的机架上(如图 5-5 所示)。于是,如果分区 0 的首领在 broker 4 上,那么第一个跟随者副本会在 broker 2 上, 这两个 broker 在不同的机架上。如果第一个机架下线,还有其他副本仍然活跃着,所以分区仍然可用。这对所有副本来说都是一样的,因此在机架下线时仍然能够保证可用性。
在这里插入图片描述
为分区和副本选好合适的 broker 之后,接下来要决定这些分区应该使用哪个目录。我们单独为每个分区分配目录,规则很简单: 计算每个目录里的分区数量,新的分区总是被添加到数量最小的那个目录里。也就是说,如果添加了一个新磁盘,所有新的分区都会被创建到这个磁盘上。因为在完成分配工作之前,新磁盘的分区数量总是最少的。
注意磁盘空间
要注意,在为 broker 分配分区时并没有考虑可用空间和工作负载问题,但在 将分区分配到磁盘上时会考虑分区数量,不过不考虑分区大小。 也就是说, 如果有些 broker 的磁盘空间比其他 broker 要大(有可能是因为集群同时使 用了旧服务器和新服务器),有些分区异常大,或者同一个 broker 上有大小 不同的磁盘,那么在分配分区时要格外小心。在后面的章节中,我们会讨论 Kafka 管理员该如何解决这种 broker 负载不均衡的问题。

文件管理

保留数据是 Kafka 的一个基本特性, Kafka 不会一直保留数据,也不会等到所有消费者都读取了消息之后才删除消息。相反, Kafka 管理员为每个主题配置了数据保留期限,规定数据被删除之前可以保留多长时间,或者清理数据之前可以保留的数据量大小。
因为在一个大文件里查找和删除消息是很费时的,也很容易出错,所以我们把分区分成若干个片段。 默认情况下,每个片段包含 1GB 或一周的数据,以较小的那个为准。在 broker 往分区写入数据时,如果达到片段上限,就关闭当前文件,井打开一个新文件。 当前正在写入数据的片段叫作活跃片段。活动片段永远不会被删除,所以如果你要保留数据 1天,但片段里包含了 5 天的数据,那么这些数据会被保留 5 天,因为在片段被关闭之前这些数据无法被删除。 如果你要保留数据一周,而且每天使用一个新片段,那么你就会看到,每天在使用一个新片段的同时会删除一个最老的片段一一-所以大部分时间该分区会 有 7 个片段存在。
broker 会为分区里的每个片段打开一个文件句柄,哪怕片段是不活跃 的。 这样会导致打开过多的文件句柄,所以操作系统必须根据实际情况做一些调优。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值