前言
kafka是目前企业中很常用的消息队列产品,可以用于削峰、解耦、异步通信。特别是在大数据领域中应用尤为广泛,主要得益于它的高吞吐量、低延迟,在我们公司的解决方案中也有用到。既然kafka在企业中如此重要,那么本文就通过几张图带大家全面认识一下kafka,现在我们不妨带入kafka设计者的角度去思考该如何设计,它的架构是怎么样的、都有哪些组件组成、如何进行扩展等等。
kafka基础架构
现在假如有100T大小的消息要发送到kafka中,数据量非常大,一台机器存储不下,面对这种情况,你该如何设计呢?
很简单,分而治之,一台不够,那就多台,这就形成了一个kafka集群。如下图所示,一个broker就是一个kafka节点,100T数据就有3个节点分担,每个节点约33T,这样就能解决问题了,还能提高吞吐量。
- Topic: 可以理解为一个队列,一个kafka集群中可以定义很多的topic,比如上图中的
topicA
。 - Partition: 为了实现扩展性,提高吞吐量,一个非常大的
topic
可以分布到多个broker
(即服务器)上,一个topic
可以分为多个partition
,每个partition
是一个有序的队列。比如上图中的topicA被分成了3个partition
。 - Replica: 副本,如果数据只放在一个
broker
中,万一这个broker
宕机了怎么办?为了实现高可用,一个topic
的每个分区都有若干个副本,一个Leader
和若干个Follower
。比如上图中的虚线连接的就是它的副本。 - Leader: 每个分区多个副本的“主”,生产者发送数据的对象,以及消费者消费数据的对象都是
Leader
。 - Follower: 每个分区多个副本中的“从”,实时从
Leader
中同步数据,保持和Leader
数据的同步。Leader
发生故障时,某个Follower
会成为新的Leader
。 - Producer: 消息生产者,就是向
Kafka broker
发消息的客户端,后面详细讲解。 - Consumer: 消息消费者,向
Kafka broker
取消息的客户端,多个Consumer
会组成一个消费者组,后面详细讲解。 - Zookeeper:用来记录kafka中的一些元数据,比如kafka集群中的broker,leader是谁等等,但
Kafka
2.8.0版本以后也支持非zk的方式,大大减少了和zk的交互。