文章目录
kafka工作流程
kafka中的数据只能保证分区内有序,不能保证全局有序
topic是逻辑上的概念,而partition是物理上的概念,可以在本地看见真实的目录
kafka文件存储机制
由于生产者生产的消息会不断追加到 log 文件末尾,为防止 log 文件过大导致数据定位效率低下,Kafka 采取了分片和索引机制,将每个 partition 分为多个 segment。每个 segment对应两个文件:
.index文件和 .log 文件。这些文件位于一个文件夹下,该文件夹的命名规则为:
topic 名称+分区序号。例如,first 这个 topic 有三个分区,则其对应的文件夹为 first-0,first-1,first-2
index 和 log 文件以当前 segment 的第一条消息的 offset 命名。
找消息的步骤 :先在index中 查找存储消息的编号 和 每条消息的起始偏移量再去log(真正存储的消息)中查找数据(采用二分法查找)
kafka生产者
分区策略
分区的原因:
(1)方便在集群中扩展,每个 Partition 可以通过调整以适应它所在的机器,而一个 topic又可以有多个 Part