kafka入门学习-CSDN博客

本文链接：https://blog.csdn.net/hsnsnusjs/article/details/148458577

一、分片

首先，kafka就是消息队列的一种，将消息分为多个不同的topic，每一个topic中，又细分为不同的patition（注：实际存储的时候，kafka是以partition为单位存储的，topic可以理解为redis中的key，起到分类作用，例如：a：0，表示a主题下的第一个partition），partition存放在broker中，同一主题下的不同的partition可以存放在同一broker中，也可以存在于不同的broker中（但是同一partition的不同副本需要存放在不同的broker中，后面会提到）。
在这里插入图片描述

分片规则

数据指定了partition，则存入对应的partition
如果没有指定partition而是指定了key，则按照key的hash值存入
如果没有指定partition和key，则按照顺序存入partition中，先0，然后1，然后2。。。。

读写规则

在集群模式下，一个Partition只对应一个Broker，一个Broker可以存放多个Partition。kafka是先随机挑选一个broker放置分区0，然后再按顺序放置其他分区。

二、broker

集群的访问

客户端维护各个Broker的映射表，此外，和redis类似，broker之间都是相互知道信息的，访问一台Broker的信息就可以得到所有broker的信息列表。

三、生产者

3.1 客户端发送消息到kafka的流程

将发送的消息封装成kafka消息包
将消息包序列化，在网络中传输
传输到kafka之后选择partition

3.1.1 消息的结构

在这里插入图片描述

Key：根据Key的Hash对Partition数目取模来决定是哪个Partition，也就是说只要发送时指定了相同的Key，那么相关消息一定会发送到相同的Partition，Key一般而言都是字符串，最终都会被序列化为二进制。
Value：发送的具体内容，比如发送的消息是“你好”，Value就是“你好”，Value最终都会被序列化为二进制。
Compression Type：压缩类型，其实就是压缩算法类型，这个字段决定了用哪种算法压缩Kafka消息，枚举值有none, gzip, lz4, snappy等。
Headers：可以通过这个字段传递额外的Header，其实就是传递一些自定义的key-value对，比如想传递TraceID，就可以通过这个字段来进行。
Partition + Offset：这个字段生产出来时候是空的，发送到Kafka的服务端后，会写入具体的分区的偏移，主题+分区+偏移其实就唯一对应了一条消息。
Timestamp：时间戳，记录消息的时间。

3.1.2 消息发送的方式

同步发送：需要等待消息是否发送成功
发送即忘：发送之后就不管了
异步发送：发送之后等待返回结果（异步等待，不会阻塞主线程），可以设置回调函数（回调函数由sender线程执行，回调时会将sender线程激活，执行回调函数，异步执行）

四、消费者

不同消费者可以在同一时间对同一主题进行消费
相同消费者可以同一时间从同一主题的不同分片读取信息。
如果一个消费者，同时消费多个分片下，无法保证消息之间的先后顺序
如果一个消费者，只消费一个分片，消费顺序即生产顺序，符合队列的先入先出特性

kafka的消息是拉取模式

4.1 消费者offset

每条消息在Kafka中会有Partition ID以及OFFSET，通过这两个信息就可以定位到一条消息。消费者组消费消息之后会提交它在某个Partition对应的OFFSET，这样子下一次就可以从下个位置（OFFSET+1）开始消费。这个offset由broker维护。

4.2 主动提交和被动提交

自动提交（被动提交）：拉取任务后就修改offset，但是可能消息失败，比如消费者在做完事情之前崩溃重启，那这条消息就丢了。
手动提交（主动提交）：当某条消息的处理流程都ok了，再向Broker主动提交，这样更为稳健。一般是保证消息至少消费一次时使用

4.3 消费者组

同一消费者组可以消费不同的topic
消费者组包含多个消费者
topic中有多个partition
partition和消费者一对一
消费者组和topic多对多

4.3.1 消费者组分区分配策略

Range Assignor：基于范围的分配策略，将分区按照范围分配给消费者。
RoundRobin Assignor：基于轮询的分配策略，分区均匀地分配给消费者。
Sticky Assignor：优先保持当前的分配状态，并尽量减少在再平衡过程中的分区移动
CooperativeStickyAssignor：和Sticky Assignor的策略是基本一样的，区别在于该协议将原来的一次大的全部分区重平衡，改成多次小规模分区重平衡。简单理解就是渐进式重平衡。