Apache Kafka Introduction

最新推荐文章于 2022-08-29 21:18:03 发布

高效能人生

最新推荐文章于 2022-08-29 21:18:03 发布

阅读量378

点赞数

本文链接：https://blog.csdn.net/sunning9001/article/details/60462830

版权

Topics and Logs

首先我们深入Kafka为一串记录提供的核心抽象概念：Topic

Topic是一个record发行的类型或者流入名称。Kafka中topic经常有多高订阅者。同时,topic可以拥有零个、一个或者多个消费者来订阅这个topic来消费record.

每一个topic，Kafka集群中保持着一个分区的log 如下图所示：

每一个partition 是一个有序的、拥有不变序列的记录,而且可以不断增加结构化的commit log.在partition中的record都被附有一个序列ID，被称作offset. offset在可以partion中区别不同的record

Kafka集群保留所有的发布的消息、这些消息根据配置文件来保留一段时间。无论这个record是否已经被消费了。如果这个保留策略被设置成2天，如果一个消息被发送到Kafka集群中，那边这个消息就被等待消息。如果,2天过去了，无论这个消息是否被消费，这个消息都会被丢弃，然后释放磁盘空间。Kafka有存够的能力存储数据，所以不用担心数据存储问题。

实际上，每一个consumber 仅仅保存metadat中offset或者position数据，offset是指消费的记录位置。

这个offset 被consumber 控制，一般情况下，当consumber读取都records时，consumber会线性增加offset.但是，实际上，consumber可以根据自己的喜欢来消费record，来任意控制offset的位置。

例如：consumber 可以重置offset位置到一个旧位置这样可以消费已经消费过的record，或者从now开始消费，这样就可以跳过最近已经消费过的记录。

log的分区可以有多个目的。第一个目的，可以灵活的调整消息在单个server上面的数量。每一topic可以有多个分区，这样就可以处理大量的数据。

第二个目的，分区可以作为并行处理的单元。

Producer

Producer 根据他们的选择发送record到topic.producer 负责选择topic下面的哪一个分区，以被发送数据。这样，可以选择一个随机算法来简单的实现负载均衡。

Consumber

consumber 根据一个consumber group 名称把他们自己区分为不同的组。一个被发送到topic的消息会分发到每一个订阅这个topic的consumber group ,但是只会分发到consumber group 中的一个实例。comsumber的实例可以在不同的进程中或者在不同的机器上面。

如果，所有的consumber 实例拥有同一个consumber group ,那么消息会被有效的负载到所有的consumber实例上面。

如果，所有的consumber 实例拥有完全不同的consumber group中，那么，消息会被广播到所有的consumber 实例上面。