目录
kafka的追加写
Kafka的PageCache 在 Broker 端扮演着重要的角色。当 Broker 端的 PageCache 接收到消息时,根据消息的 TopicPartition(主题和分区)将消息写入该分区的 Active Segment 文件。
追加写(Append-Only)
当消息到达 Broker 端时,PageCache 不会立即将消息写入硬盘文件的任意位置,而是追加写入当前活跃的段(Active Segment)。追加写是一种将新数据附加到文件末尾的方式,而不是在文件中间进行修改或插入。这种写入方式非常高效,因为:
-
避免磁盘随机写:磁盘的随机写入通常会导致磁头不断移动寻找适合写入的位置,这是磁盘操作中耗时的部分。通过追加写,可以避免大部分磁盘随机写的开销,因为数据总是追加到文件末尾。
-
顺序写入优化:硬盘对于顺序写入(数据按顺序连续写入磁盘)通常有更好的性能。追加写保证了数据按照到达的顺序被连续地写入磁盘,从而充分利用了硬盘的顺序写入性能。
磁盘的物理结构回顾
1. 盘片(Platter)
硬盘由一个或多个盘片组成,每个盘片有正反两面。盘片和磁头的编号是一一对应的,每个盘面都被编号,从0开始。
2. 磁道(Track)
每个盘片的表面被划分为多个同心圆环,称为磁道。磁道从外向内依次编号,0号磁道是最外圈的那个。
3. 扇区(Sector)
每个磁道被划分为若干个弧段,每个弧段称为一个扇区。扇区是硬盘存储数据的最小单位,默认大小为512字节。
4. 柱面(Cylinder)
所有盘面上同一编号的磁道组成一个柱面。硬盘的读写操作是按柱面进行的,即先处理某个柱面上的所有磁头(盘面),再移动到下一个柱面。
5. 磁盘读写原理
读写数据时,首先在同一柱面的一个盘面上选择磁头,进行操作。只有当前柱面上所有盘面的操作完成后,才会切换到下一个柱面。这样的操作方式称为按柱面顺序执行,有助于提高读写效率。
6. 磁头切换
- 盘面内切换:通过电子切换,非常快速。
- 柱面间切换:需要机械步进电机控制,因为涉及磁头的径向移动,称为寻道操作。
顺序写和随机写
顺序写和随机写是磁盘操作中重要的概念,它们描述了在进行数据读写时磁盘访问的模式和效率。
1. 顺序写(Sequential Write)
顺序写是指按照连续的顺序将数据写入磁盘的操作方式。在顺序写中,数据按照物理存储位置的顺序依次写入磁盘的连续扇区或块中。主要特点包括:
- 连续写入:数据被连续地写入磁盘的相邻扇区或块,不会跳跃或随机访问磁盘上的不同位置。
- 优点:顺序写能够最大程度地利用磁盘的顺序读写性能,减少了寻道时间和旋转延迟,因此能够获得更高的吞吐量。
- 应用:适用于需要连续写入大量数据或流式数据的场景,如日志文件的追加、数据备份等。
2. 随机写(Random Write)
随机写是指数据被非连续地写入磁盘上的不同位置或不同的扇区中。在随机写中,每次写入操作可能会导致磁头需要跳跃到不同的磁道或不同的扇区,从而增加了寻道时间和旋转延迟。主要特点包括:
- 非连续写入:数据写入的位置是不连续的,可能在磁盘的不同磁道或随机分布的扇区中。
- 劣势:由于频繁的寻道操作和不连续的数据存储位置,随机写的吞吐量通常较低,效率不如顺序写。
- 应用:适用于需要随机访问和修改数据的场景,如数据库的随机写入、文件系统的随机读写等。
关于IOPS和吞吐量的关系
- IOPS(每秒 I/O 操作数)是衡量系统处理能力的指标,表示系统每秒钟能够执行的读写操作次数。
- 吞吐量是指单位时间内传输的数据量,通常以数据块或字节为单位。吞吐量可以通过以下公式计算:吞吐量 = IOPS × 每次 I/O 的大小。
在顺序写中,由于数据按顺序连续写入,减少了寻道时间和旋转延迟,因此能够获得更高的吞吐量。即使IOPS(每秒操作数)保持不变,通过增加每次 I/O 的大小(通常以块为单位),也可以显著提升吞吐量。相比之下,随机写的吞吐量受到寻道时间和磁盘旋转的影响,通常较低。
Kafka 中利用顺序写的步骤
-
消息追加到分区末尾:
- Kafka 的每个分区是一个有序的不可变消息队列。新的消息会不断追加到每个分区的末尾,而不会修改已有的消息。
- 每个分区被划分成多个 segment(段),每个 segment 对应一个物理文件。Kafka 对这些 segment 文件进行顺序写入操作。
-
ProducerBatch 的使用:
- 当生产者发送消息时,Kafka 会将消息暂时存储在 Socket Receive Buffer 中,然后以 ProducerBatch 的形式批量写入到 PageCache。
- 默认情况下,每个 ProducerBatch 的大小是 16KB,远大于一个磁盘块的大小(通常为 4KB)。
-
数据写入到 PageCache:
- Kafka Broker 认为消息已经成功发送,一旦消息写入到 PageCache 中。
- PageCache 是操作系统内核中的一部分,用于暂时存储待写入磁盘的数据。这允许操作系统将多次小的写操作合并成单次大的写操作,从而优化磁盘的顺序写入。
-
刷盘策略:
- PageCache 中的数据最终会被异步或同步地写入到硬盘上。这是由操作系统的刷盘策略来控制的,涉及以下几个参数:
dirty_writeback_centisecs
:控制 pdflush 进程的运行间隔。dirty_expire_centisecs
:指定 PageCache 中数据被认为过期并应该写入磁盘的时间。dirty_background_ratio
和dirty_ratio
:控制何时进行异步刷盘和阻塞写操作的阈值。
- PageCache 中的数据最终会被异步或同步地写入到硬盘上。这是由操作系统的刷盘策略来控制的,涉及以下几个参数:
-
优化磁盘写入:
- 顺序写的主要优点在于减少了磁盘的寻道时间和旋转延迟。这是因为磁头在写入数据时不需要频繁移动,而是一次性顺序地写入大块数据。
- 尽管顺序写不要求每个 Segment 文件上的数据块是严格挨着的,但它确保了每次写操作的连续性,从而显著减少了磁头的寻道和盘片的旋转次数。
总结
Kafka 利用顺序写的策略,通过将消息批量追加到分区的末尾,并最终以大块数据的形式顺序写入磁盘,以实现高效的写入性能和吞吐量。这种方式有效地利用了现代操作系统和硬件的优化能力,使得 Kafka 能够处理大规模的数据流而不牺牲性能和可靠性。