Kafka-工作流程分析及API实战

最新推荐文章于 2021-08-30 11:04:35 发布

青岛欢迎您

最新推荐文章于 2021-08-30 11:04:35 发布

阅读量334

点赞数

分类专栏：大数据文章标签： Kafka-工作流程分析及API实战 kafka

本文链接：https://blog.csdn.net/liberty12345678/article/details/85260524

版权

大数据专栏收录该内容

34 篇文章 0 订阅

订阅专栏

本文详细解析了Kafka的工作流程，包括生产过程中的推模式、分区、副本和写入流程。同时介绍了Broker如何存储消息以及删除策略。此外，还探讨了Kafka的消费过程。最后，通过Java API展示了Kafka生产者和消费者的实战操作。

摘要由CSDN通过智能技术生成

1、Kafka工作流程分析

1.1、Kafka生产过程分析

1）、写入方式：

producer采用推（push）模式将消息发布到broker，每条消息都被追加（append）到分区（patition）中，属于顺序写磁盘（顺序写磁盘效率比随机写内存要高，保障kafka吞吐率）。

2）、分区（Partition）

Kafka集群有多个消息代理服务器（broker-server）组成，发布到Kafka集群的每条消息都有一个类别，用主题（topic）来表示。通常，不同应用产生不同类型的数据，可以设置不同的主题。一个主题一般会有多个消息的订阅者，当生产者发布消息到某个主题时，订阅了这个主题的消费者都可以接收到生成者写入的新消息。

Kafka集群为每个主题维护了分布式的分区（partition）日志文件，物理意义上可以把主题（topic）看作进行了分区的日志文件（partition log）。主题的每个分区都是一个有序的、不可变的记录序列，新的消息会不断追加到日志中。分区中的每条消息都会按照时间顺序分配到一个单调递增的顺序编号，叫做偏移量（offset），这个偏移量能够唯一地定位当前分区中的每一条消息。

消息发送时都被发送到一个topic，其本质就是一个目录，而topic是由一些Partition Logs(分区日志)组成，其组织结构如下图所示：

下图中的topic有3个分区，每个分区的偏移量都从0开始，不同分区之间的偏移量都是独立的，不会相互影响。

3）、副本（Replication）

同一个partition可能会有多个replication（对应 server.properties 配置中的 default.replication.factor=N）。没有replication的情况下，一旦broker 宕机，其上所有 patition 的数据都不可被消费，同时producer也不能再将数据存于其上的patition。引入replication之后，同一个partition可能会有多个replication，而这时需要在这些replication之间选出一个leader，producer和consumer只与这个leader交互，其它replication作为follower从leader 中复制数据。

4）、写入流程