第二章 Kafka专题之基础概念介绍（典型集群架构为例）

最新推荐文章于 2024-09-24 12:25:21 发布

随缘清风殇

最新推荐文章于 2024-09-24 12:25:21 发布

阅读量1.3k

点赞数

分类专栏： # kafka专题文章标签： kafka 架构分布式

本文链接：https://blog.csdn.net/qq_27924553/article/details/122177420

版权

14 篇文章 4 订阅

订阅专栏

（1）kafka是一个消息中间件(一个对消息进行统一管理的中间件)
（2）kafka分布式集群，每台Kafka服务器内部维护着一个queue，MeaasgeQueue是一个共享资源(producer,consumer)
（3）kafka底层用scala实现的，每秒能够处理百万级的消息生产和消费

在这里插入图片描述
（1）Broker

（2）Producer生产者

（3）Consumer

（4）ConsumerGroup

（5）Topic

（6）Partition

（7）Replication副本

（8）ReplicationLeader

（9）ReplicationFollower

（10）offset

（1）集群架构

一个典型的kafka集群中包含
①若干producer（可以是web前端产生的page view，或者是服务器日志，系统CPU、memory等），
②若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），
③若干consumer group，
④一个Zookeeper集群。
运行方式：Kafka通过Zookeeper管理集群配置，选举leader，
①在consumer group发生变化时进行rebalance。
②producer使用push模式将消息发布到broker，consumer使用pull模式从broker订阅并消费消息。

在这里插入图片描述

Producer - 消息生产者
①在发送一条消息时，可以指定这条消息的 key，Producer 根据这个 key 和 Partition 机制来判断应该将这条消息发送到哪个 Parition。
②key 相同的消息会被发送并存储到同一个 partition 里，而且 key 的序号正好和 Partition 序号相同。
Broker - 服务器
Kafka集群包含一个或多个服务器，这种服务器被称为broker
Consumer Group
①使用 Consumer high level API 时，同一Topic的一条消息只能被同一个 Consumer Group 内的一个 Consumer 消费，但多个 Consumer Group 可同时消费这一消息。
②可以使用 Storm 这种实时流处理系统对消息进行实时在线处理，同时使用 Hadoop 这种批处理系统进行离线处理，还可以同时将数据实时备份到另一个数据中心，只需要保证这三个操作所使用的 Consumer 属于不同的 Consumer Group 即可

在这里插入图片描述

Topic - 逻辑分主题，用来区分具体业务
①Kafka数据写入操作的基本单元，每条消息属于且仅属于一个Topic
②Producer发布数据时，必须指定将该消息发布到哪个Topic
③Consumer订阅消息时，也必须指定订阅哪个Topic的信息
④一个Topic包含一个或多个Partition，建Topic的时候可以手动指定Partition个数

举例:创建 topic1 和 topic2 两个 topic，且分别有 13 个和 19 个分区，
则整个集群上会相应会生成共 32 个文件夹
（本文所用集群共 8 个节点，此处 topic1 和 topic2 replication-factor 均为 1）。

Partition - 包含一一对应的.index文件和.log文件
①每个Partition只会在一个Broker上，物理上每个Partition对应的是一个文件夹,默认采用哈希分区；
②partition目录名是topic的名称加上一个序号；
③Partition包含多个Segment，每个Segment对应一个文件，Segment可以手动指定大小，当Segment达到阈值时，将不再写数据，每个Segment都是大小相同的
Segment - 本质上为.log文件和.index文件
①**.log文件由多个不可变的记录组成，记录只会被append到Segment中，不会被单独删除或者修改，每个Segment中的Message数量不一定相等
②.index文件记录了元数据信息**，指向对应的数据文件中Message的物理偏移量
Message - 本质上是消息,包含三个属性
①offset对应类型Long,可认为是message在partition中的id
②Messagesize对应类型是int
③data是message的具体内容
Offset - 本质上为消息在log文件中的位置
①每条消息在log文件中的位置，是一个单调递增且不变的值