定义
Kafka 是一个分布式
的基于发布/订阅模式
的消息队列
(Message Queue),主要应用于大数据实时处理领域。
消息队列
传统消息队列的应用场景—异步处理
用户注册流程的同步处理的情况如下所示:
用户注册流程的异步处理的情况如下所示:
使用消息队列好处
- 解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵循同样的接口约束。
- 可恢复性:系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后处理。
- 缓冲:有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息处理速度不一样的情况。
- 灵活性和峰值处理能力:在访问量剧增的情况下,应用仍然需要继续发挥作用,当然这样的突发情况并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命,无疑是巨大的浪费。使用消息队列能够使关键组件顶住突然的访问压力,而不会因为突发的超负荷的请求完全崩溃。
- 异步通信:很多时候,用户不想也不需要立即处理消息,消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放入多少消息,然后在需要的时候再处理它们。
消息队列的两种模式
-
点对点模式:一对一,消费者主动拉取数据,消息收到后消息清除。消息生产者生产消息发送到Queue,然后消息消费者从Queue中取出并且消费消息。Queue支持存在多个消费者,但是对同一个消息而言,只会有一个消费者可以消费。
-
发布/订阅模式:一对多,消费者消费数据之后不会清除消息。消息生产者(发布)将消息发布到Topic中,同时有多个消息消费者(订阅)消费该消息,和点对点方式不同,发布到Topic的消息会被所有订阅者消费。
Kafka架构模式
producer
:消息生产者,向 broker 发送消息的客户端。
broker
:kafka进程
topic
:主题,可以理解为一个队列,生产者和消费者面向的都是同一个 topic。
partition
:为了实现扩展性,每个 topic 可以有多个 partition(分区),每个 partition 是一个有序的队列。
replica
:副本,为了保证当集群中的某个节点发生故障时,该节点上 partition 上的数据不丢失且 kafka 能够正常工作,kafka 提供了副本机制,每个 partition 有一个 leader 和若干个follower,其中 follower 只起到备份数据的作用。
leader
:每个分区多个副本的主,生产者发送数据的对象和消费者消费数据的对象都是leader。
follower
:每个分区多个副本的从,实时从 leader 中同步数据,保证和 leader 中的数据同步,当 leader 挂掉时,多个 follower 中的一个可以被选举成为新的 leader 继续提供服务。
consumer
:消息消费者,向 broker 取消息的客户端。
comsumer group
:消费者组,由多个 consumer 组成。partition 中的一条消息只能被同一个消费者组中的一个comsumer 消费,可以被多个不同组中的 consumer 消费。
offset
:消费者消费消息的偏移量,0.9版本之前存储在 zookeeper,之后的版本存储在 kafka 本地。
Kafka概念和术语
Kafka 是一个分布式消息引擎系统,它提供了一套完备的消息发布与订阅解决方案。
主题(Topic):在Kafka中发布订阅的对象是主题(topic)。
生产者(Producer):向主题发送消息的客户端,生产者可以不断地向一个或多个topic发送消息。
消费者(Consumer):订阅主题的客户端,消费者也可以同时订阅多个topic。
生产者和消费者统称为客户端(Clients)。
Broker:Kafka 的服务器端进程,broker负责接收和处理客户端发送过来的请求,以及对消息进行持久化。一个Kafka集群由多个broker组成,通常将broker部署在不同的机器上以保证Kafka高可用。
Partitioning(分区):将每个主题(topic)划分为多个分区(Partition),分区是为了解决伸缩性问题,防止单台Broker机器无法容纳过多数据。分区编号从0开始,每个分区是一组有序的消息,也就是说单个分区内的消息是有序的。生产者产生的消息只会发送到同一个主题下的一个分区。
Replica(副本):Topic中的每个分区可以配置N个(不能大于Broker节点数量)副本(Replica),其中只能有一个Leader副本,和N-1个Follower副本。其中Leader对外提供服务,Follower同步Leader数据,不对外提供读写请求,起到数据备份作用。
分区位移(Offset):生产者生产的每条消息会发送到主题下的一个分区,每条消息在分区中的位置信息由位移(Offset)来表示,分区位移从0开始,依次递增。
消费者组(Consumer Group):由多个消费者共同组成,一条消息只能被同一个消费者组中的一个消费者消费。
Kafka 配置
# 不允许自动创建Topic
auto.create.topics.enable=false
# 不让落后太多的副本竞选Leader
unclean.leader.election.enable=false
# 不允许Kafka定期对一些Topic分区进行Leader重选举
auto.leader.rebalance.enable=false
# 消息数据保留多长时间,默认7天
log.retention.{hours|minutes|ms}=
log.retention.hours=168
# 指定Broker为消息保存的总磁盘容量大小,默认值-1 可以无限使用磁盘空间
log.retention.bytes=-1
# 控制Broker能够接收的最大消息大小,默认值1000012,不到1M,建议设置大些
message.max.bytes=10000120