1.深入理解kafka:核心设计和实践原理

目录

1.快速入门

1.Kafka之所以受到越来越多的青睐,与它所“扮演”的三大角色是分不开的:

基本概念

主题,分区,高水位

生产与消费

1.服务端参数配置

 生产者

 客户端开发:必要的三个参数设置,消息的发送,序列化,分区器,生产者拦截器,生产者客户端的整体架构

9.重要的生产者参数,acks,max.request.size,retries和retry.backoff.ms,compression.type,connections.max.idle.ms,linger.ms,receive.buffer.bytes,send.buffer.bytes,request.timeout.ms


1.快速入门

使用kafka提供的脚本工具(在实际应用中,不会只是简单地使用这两个脚本来做复杂的与业务逻辑相关的消息生产与消费的工作,具体的工作还需要通过编程的手段来实施。)

  • linux上安装java,zookeeper,kafka,启动zookeeper(zkServer.sh staart),再启动kafka(bin/kafka-server-start.sh config/server.properties)
  • 创建topic (bin/kafka-topics.sh --create --zookeeeper localhost:2181 --topic demo --partitions 1 --replication-factor 1)
  • 创建生产者往主题里发送消息 (bin/kafka-console-producer.sh --broker-list localhost:9092 --topic demo   >hello >kafka)
  • 创建消费者从主题里读取消息(bin/kafka-console-consumer.sh --broker-list localhost:9092 --topic demo >hello >kafka)

1.Kafka之所以受到越来越多的青睐,与它所“扮演”的三大角色是分不开的:

· 消息系统:Kafka 和传统的消息系统(也称作消息中间件)都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时,Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。

· 存储系统:Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。也正是得益于Kafka 的消息持久化功能和多副本机制,我们可以把Kafka作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。

· 流式处理平台:Kafka 不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。

基本概念

一个典型的 Kafka 体系架构包括若干 Producer、若干 Broker、若干 Consumer,以及一个ZooKeeper集群,如图1-1所示。其中ZooKeeper是Kafka用来负责集群元数据的管理、控制器的选举等操作的。Producer将消息发送到Broker,Broker负责将收到的消息存储到磁盘中,而Consumer负责从Broker订阅并消费消息。

Broker:服务代理节点。对于Kafka而言,Broker可以简单地看作一个独立的Kafka服务节点或Kafka服务实例。大多数情况下也可以将Broker看作一台Kafka服务器,前提是这台服务器上只部署了一个Kafka实例。

主题,分区,高水位

在Kafka中还有两个特别重要的概念—主题(Topic)与分区(Partition)。Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到Kafka集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费

主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称为主题分区(Topic-Partition)。同一主题下的不同分区包含的消息是不同的,分区在存储层面可以看作一个可追加的日志(Log)文件,消息在被追加到分区日志文件的时候都会分配一个特定的偏移量(offset)。offset是消息在分区中的唯一标识,Kafka通过它来保证消息在分区内的顺序性,不过offset并不跨越分区,也就是说,Kafka保证的是分区有序而不是主题有序

如图 1-2 所示,主题中有 4 个分区,消息被顺序追加到每个分区日志文件的尾部。Kafka中的分区可以分布在不同的服务器(broker)上,也就是说,一个主题可以横跨多个broker,以此来提供比单个broker更强大的性能。

Kafka 为分区引入了多副本(Replica)机制,通过增加副本数量可以提升容灾能力。同一分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全一样),副本之间是“一主多从”的关系,其中leader副本负责处理读写请求,follower副本只负责与leader副本的消息同步。副本处于不同的broker中,当leader副本出现故障时,从follower副本中重新选举新的leader副本对外提供服务。Kafka通过多副本机制实现了故障的自动转移,当Kafka集群中某个broker失效时仍然能保证服务可用。

Kafka 消费端也具备一定的容灾能力。Consumer 使用拉(Pull)模式从服务端拉取消息,并且保存消费的具体位置,当消费者宕机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费,这样就不会造成消息丢失。

分区中的所有副本统称为AR(Assigned Replicas)。所有与leader副本保持一定程度同步的副本(包括leader副本在内)组成ISR(In-Sync Replicas),ISR集合是AR集合中的一个子集。消息会先发送到leader副本,然后follower副本才能从leader副本中拉取消息进行同步,同步期间内follower副本相对于leader副本而言会有一定程度的滞后。前面所说的“一定程度的同步”是指可忍受的滞后范围,这个范围可以通过参数进行配置。与leader副本同步滞后过多的副本(不包括leader副本)组成OSR(Out-of-Sync Replicas),由此可见,AR=ISR+OSR。在正常情况下,所有的 follower 副本都应该与 leader 副本保持一定程度的同步,即 AR=ISR,OSR集合为空。

leader副本负责维护和跟踪ISR集合中所有follower副本的滞后状态,当follower副本落后太多或失效时,leader副本会把它从ISR集合中剔除。如果OSR集合中有follower副本“追上”了leader副本,那么leader副本会把它从OSR集合转移至ISR集合。默认情况下,当leader副本发生故障时,只有在ISR集合中的副本才有资格被选举为新的leader,而在OSR集合中的副本则没有任何机会(不过这个原则也可以通过修改相应的参数配置来改变)。

ISR与HW和LEO也有紧密的关系。HW是High Watermark的缩写,俗称高水位,它标识了一个特定的消息偏移量(offset),消费者只能拉取到这个offset之前的消息。

如图 1-4 所示,它代表一个日志文件,这个日志文件中有 9 条消息,第一条消息的offset(LogStartOffset)为0,最后一条消息的offset为8,offset为9的消息用虚线框表示,代表下一条待写入的消息。日志文件的HW为6,表示消费者只能拉取到offset在0至5之间的消息,而offset为6的消息对消费者而言是不可见的。

LEO是Log End Offset的缩写,它标识当前日志文件中下一条待写入消息的offset,图1-4中offset为9的位置即为当前日志文件的LEO,LEO的大小相当于当前日志分区中最后一条消息的offset值加1。分区ISR集合中的每个副本都会维护自身的LEO,而ISR集合中最小的LEO即为分区的HW,对消费者而言只能消费HW之前的消息。

如图 1-7 所示,在某一时刻follower1完全跟上了leader副本而follower2只同步了消息3,如此leader副本的LEO为5,follower1的LEO为5,follower2的LEO为4,那么当前分区的HW取最小值4,此时消费者可以消费到offset为0至3之间的消息。

Kafka使用的这种ISR的方式则有效地权衡了数据可靠性和性能之间的关系。


生产与消费

java演示


1.服务端参数配置

kafka的服务端参数都配置在$KAFKA_HOME/config/server.properties文件中。

zookeeper.connect

该参数指明broker要连接的ZooKeeper集群的服务地址(包含端口号),没有默认值,且此参数为必填项。可以配置为localhost:2181,如果ZooKeeper集群中有多个节点,则可以用逗号将每个节点隔开,类似于 localhost1:2181,localhost2:2181,localhost3:2181这种格式。最佳的实践方式是再加一个chroot路径,这样既可以明确指明该chroot路径下的节点是为Kafka所用的,也可以实现多个Kafka集群复用一套ZooKeeper集群,这样可以节省更多的硬件资源。包含 chroot 路径的配置类似于 localhost1:2181,localhost2:2181,localhost3:2181/kafka这种,如果不指定chroot,那么默认使用ZooKeeper的根路径。

listeners

该参数指明broker监听客户端连接的地址列表,即为客户端要连接broker的入口地址列表,配置格式为 protocol1://hostname1:port1,protocol2://hostname2:port2,其中protocol代表协议类型,Kafka当前支持的协议类型有PLAINTEXT、SSL、SASL_SSL等,如果未开启安全认证,则使用简单的PLAINTEXT即可.如果不指定主机名,则表示绑定默认网卡,注意有可能会绑定到127.0.0.1,这样无法对外提供服务,所以主机名最好不要为空

broker.id

该参数用来指定Kafka集群中broker的唯一标识,默认值为-1。如果没有设置,那么Kafka会自动生成一个。

log.dir和log.dirs

Kafka 把所有的消息都保存在磁盘上,而这两个参数用来配置 Kafka 日志文件存放的根目录。一般情况下,log.dir 用来配置单个根目录,而 log.dirs 用来配置多个根目录(以逗号分隔),但是Kafka并没有对此做强制性限制,也就是说,log.dir和log.dirs都可以用来配置单个或多个根目录。log.dirs 的优先级比 log.dir 高,但是如果没有配置log.dirs,则会以 log.dir 配置为准。默认情况下只配置了 log.dir 参数,其默认值为/tmp/kafka-logs。

message.max.bytes

该参数用来指定broker所能接收消息的最大值,默认值为1000012(B),约等于976.6KB。如果 Producer 发送的消息大于这个参数所设置的值,那么(Producer)就会报出RecordTooLargeException的异常。如果需要修改这个参数,那么还要考虑max.request.size(客户端参数)、max.message.bytes(topic端参数)等参数的影响。为了避免修改此参数而引起级联的影响,建议在修改此参数之前考虑分拆消息的可行性。


 生产者

 客户端开发:必要的三个参数设置,消息的发送,序列化,分区器,生产者拦截器,生产者客户端的整体架构

一个正常的生产逻辑需要具备以下几个步骤:

(1)配置生产者客户端参数及创建相应的生产者实例。

(2)构建待发送的消息。

(3)发送消息。

(4)关闭生产者实例。

 

2.

如上图所示ProducterRecord类有众多属性,topic,partition,headers,key,value,timestamp.

topic 和partition指定消息发送的主体和分区,headers指定头部信息,可以不用设置,key指定消息的键,,value指消息体一般不为空,为空表示墓碑消息,timestamp只消息时间戳,有两种类型,一种是创建的时间,一种表示消息追加到日志文件的时间

 

3.必要的参数设置

kafkaProducer有三个必填的参数:

bootstrap.servers:该参数表示生产者连接kafka集群所需的broker地址清单,建议最少设置两个broker,当其中一个宕机,生产者还能连接到集群

key.serializer和value.serializer.生产者需要将消息中的key,value做响应的序列化操作来转换成字节数组,注意必须是全限定名

client.id不设置也会有默认设置

为了方便和写入错误,可以直接使用ProducerConfig类,此类中有很多config常量

kafkaProducer是线程安全,可以字啊多个线程中共享这个kafkaProducer实例.

 

4.消息的发送

ProducerRecord有多个构造,如上图展示的这个类,有多个属性,topic和value是必填项

发送消息有三种模式:同步sync,异步async,发后即忘fire-and forget

send(record)为发后即忘,在有些情况下可能会造成消息的丢失,其性能最高,可靠性最差

可以使用send().get()获取发送消息的结果,此方法可以阻塞kafka的响应,知道消息发送成功或异常.如下图,启动后控制台没有继续打印,因为被阻塞了

也可以使用下面的方法,获取更多的信息

future表示提供了一个任务的生命周期,使用send().get(Long time ,TimeUit) 可以实现自定义超时阻塞

KafkaProducer中一般会发生两种类型的异常:可重试的异常和不可重试的异常

对于可重试的异常,如果配置了 retries 参数,那么只要在规定的重试次数内自行恢复了,就不会抛出异常。retries参数的默认值为0,其配置方式如下:

同步发送的方式可靠性高,要么消息被发送成功,要么发生异常。如果发生异常,则可以捕获并进行相应的处理,而不会像“发后即忘”的方式直接造成消息的丢失。不过同步发送的方式的性能会差很多,需要阻塞等待一条消息发送完之后才能发送下一条

异步发送方式:

在send(),方法加入newCallBack{}接口参数,作为消费响应会回调,确认等.

示例代码中遇到异常时(exception!=null)只是做了简单的打印操作,在实际应用中应该使用更加稳妥的方式来处理,比如可以将异常记录以便日后分析,也可以做一定的处理来进行消息重发。onCompletion()方法的两个参数是互斥的,消息发送成功时,metadata 不为 null 而exception为null;消息发送异常时,metadata为null而exception不为null。

close()方法用于发送结束后关闭资源,其有两个重载方法,另外一个如下图,可以设置超时执行关闭.在实际应用中都使用无参的方法

5.序列化

除了用于String类型的序列化器,还有ByteArray、ByteBuffer、Bytes、Double、Integer、Long这几种类型,它们都实现了org.apache.kafka.common.serialization.Serializer接口

如下图自定义序列化器,company对象

如何使用自定义的序列化器CompanySerializer呢?只需将KafkaProducer的value.serializer参数设置为CompanySerializer类的全限定名即可。

 

6.分区器

消息的send()发送broker节点时,需要经过拦截器,序列化器分区器,当消息经过序列化器后就要知道分区器了,这样消息才会知道发送那个分区

如果消息ProducerRecord中指定了partition字段,那么就不需要分区器的作用,因为partition代表的就是所要发往的分区号。

如果消息ProducerRecord中没有指定partition字段,那么就需要依赖分区器,根据key这个字段来计算partition的值。分区器的作用就是为消息分配分区

默认使用的DefaultPartitioner,

注意:如果 key 不为 null,那么计算得到的分区号会是所有分区中的任意一个;如果 key为null,那么计算得到的分区号仅为可用分区中的任意一个,注意两者之间的差别。

还可以使用自定义的分区器,只需同DefaultPartitioner一样实现Partitioner接口即可

 

7.生产者拦截器

,Kafka一共有两种拦截器:生产者拦截器和消费者拦截器。

生产者拦截器既可以用来在消息发送前做一些准备工作,比如按照某个规则过滤不符合要求的消息、修改消息的内容等,也可以用来在发送回调逻辑前做一些定制化的需求,比如统计类工作。

生产者拦截器的使用也很方便,主要是自定义实现org.apache.kafka.clients.producer.ProducerInterceptor接口

KafkaProducer在将消息序列化和计算分区之前会调用生产者拦截器的onSend()方法来对消息进行相应的定制化操作。一般来说最好不要修改消息 ProducerRecord 的 topic、key 和partition 等信息,如果要修改,则需确保对其有准确的判断,否则会与预想的效果出现偏差。比如修改key不仅会影响分区的计算,同样会影响broker端日志压缩(Log Compaction)的功能。

KafkaProducer 会在消息被应答(Acknowledgement)之前或消息发送失败时调用生产者拦截器的 onAcknowledgement()方法,优先于用户设定的 Callback 之前执行。

在这 3 个方法中抛出的异常都会被捕获并记录到日志中,但并不会再向上传递。

KafkaProducer中不仅可以指定一个拦截器,还可以指定多个拦截器以形成拦截链。拦截链会按照 interceptor.classes 参数配置的拦截器的顺序来一一执行(配置的时候,各个拦截器之间使用逗号隔开)。

如果拦截链中的某个拦截器的执行需要依赖于前一个拦截器的输出,那么就有可能产生“副作用”。设想一下,如果前一个拦截器由于异常而执行失败,那么这个拦截器也就跟着无法继续执行。在拦截链中,如果某个拦截器执行失败,那么下一个拦截器会接着从上一个执行成功的拦截器继续执行。

 

8.原理分析 

生产者客户端的整体架构

整个生产者客户端由两个线程协调运行,这两个线程分别为主线程和Sender线程(发送线程)。在主线程中由KafkaProducer创建消息,然后通过可能的拦截器、序列化器和分区器的作用之后缓存到消息累加器(RecordAccumulator,也称为消息收集器)中。Sender 线程负责从RecordAccumulator中获取消息并将其发送到Kafka中。

RecordAccumulator 主要用来缓存消息以便 Sender 线程可以批量发送,进而减少网络传输的资源消耗以提升性能。

9.重要的生产者参数,acks,max.request.size,retries和retry.backoff.ms,compression.type,connections.max.idle.ms,linger.ms,receive.buffer.bytes,send.buffer.bytes,request.timeout.ms

acks:这个参数用来指定分区中必须要有多少个副本收到这条消息,之后生产者才会认为这条消息是成功写入的。acks 是生产者客户端中一个非常重要的参数,它涉及消息的可靠性和吞吐量之间的权衡

①:acks参数有3种类型的值:

· acks=1。默认值即为1。生产者发送消息之后,只要分区的leader副本成功写入消息,那么它就会收到来自服务端的成功响应acks设置为1,是消息可靠性和吞吐量之间的折中方案。

· acks=0。生产者发送消息之后不需要等待任何服务端的响应。如果在消息从发送到写入Kafka的过程中出现某些异常,导致Kafka并没有收到这条消息,那么生产者也无从得知,消息也就丢失了。在其他配置环境相同的情况下,acks 设置为 0 可以达到最大的吞吐量。

· acks=-1或acks=all。生产者在消息发送之后,需要等待ISR中的所有副本都成功写入消息之后才能够收到来自服务端的成功响应。

注意:acks设置的值是字符型,"1","0""-1"

 

②:max.request.size

 

这个参数用来限制生产者客户端能发送的消息的最大值,默认值为 1048576B,即 1MB。一般情况下,这个默认值就可以满足大多数的应用场景了

 注意:不建议读者盲目地增大这个参数的配置值,尤其是在对Kafka整体脉络没有足够把控的时候。因为这个参数还涉及一些其他参数的联动,比如broker端的message.max.bytes参数,如果配置错误可能会引起一些不必要的异常。比如将broker端的message.max.bytes参数配置为10,而max.request.size参数配置为20,那么当我们发送一条大小为15B的消息时

 

③:retries和retry.backoff.ms

retries参数用来配置生产者重试的次数,默认值为0,即在发生异常的时候不进行任何重试动作。

重试还和另一个参数retry.backoff.ms有关,这个参数的默认值为100,它用来设定两次重试之间的时间间隔,避免无效的频繁重试

 

④:compression.type

这个参数用来指定消息的压缩方式,默认值为“none”,即默认情况下,消息不会被压缩。该参数还可以配置为“gzip”“snappy”和“lz4”。对消息进行压缩可以极大地减少网络传输量、降低网络I/O,从而提高整体的性能。消息压缩是一种使用时间换空间的优化方式,如果对时延有一定的要求,则不推荐对消息进行压缩。

 

⑤:.connections.max.idle.ms

这个参数用来指定在多久之后关闭限制的连接,默认值是540000(ms),即9分钟。

 

⑥:.linger.ms

这个参数用来指定生产者发送 ProducerBatch 之前等待更多消息(ProducerRecord)加入ProducerBatch 的时间,默认值为 0。生产者客户端会在 ProducerBatch 被填满或等待时间超过linger.ms 值时发送出去。增大这个参数的值会增加消息的延迟,但是同时能提升一定的吞吐量。这个linger.ms参数与TCP协议中的Nagle算法有异曲同工之妙。

 

⑦:receive.buffer.bytes

这个参数用来设置Socket接收消息缓冲区(SO_RECBUF)的大小,默认值为32768(B),即32KB。如果设置为-1,则使用操作系统的默认值。如果Producer与Kafka处于不同的机房,则可以适地调大这个参数值。

 

⑧send.buffer.bytes

这个参数用来设置Socket发送消息缓冲区(SO_SNDBUF)的大小,默认值为131072(B),即128KB。与receive.buffer.bytes参数一样,如果设置为-1,则使用操作系统的默认值。

 

⑨:.request.timeout.ms

这个参数用来配置Producer等待请求响应的最长时间,默认值为30000(ms)。请求超时之后可以选择进行重试。注意这个参数需要比broker端参数replica.lag.time.max.ms的值要大,这样可以减少因客户端重试而引起的消息重复的概率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《深入理解kafka核心设计实践原理》是一本介绍Kafka的书籍,主要涵盖了Kafka核心设计实践原理Kafka是一个分布式的消息队列系统,被广泛应用于大数据领域。本书从Kafka的基本概念入手,详细介绍了Kafka的架构、消息存储、消息传输、消息消费等方面的内容。同时,本书还介绍了Kafka的高级特性,如事务、流处理、安全等方面的内容。对于想要深入了解Kafka的读者来说,这本书是一本不可多得的好书。 ### 回答2: ### 回答3: Kafka是一个高性能的分布式消息系统,可以承载海量数据流,支持高可靠、高吞吐量的消息传递。它具有良好的扩展性、稳定性和可管理性,在现代数据架构中占据了非常重要的地位。本文将深入探讨Kafka核心设计实践原理,让读者更全面地了解这个流行的消息系统。 1. 消息模型 Kafka的消息模型以消息为中心,将数据分为多个Topic,每个Topic可以有多个Partition。Producer将消息发送到指定的Topic,Consumer可以订阅特定的Topic并接收其中的消息。在每个Partition中,Kafka将消息以offset为单位进行存储,保证数据的可靠性和顺序性。 2. 存储机制 Kafka使用分布式的文件存储机制,将消息以Segment为单位进行存储。每个Segment包含一个或多个消息,使用mmap技术将数据加载到内存中,提高读写速度。Kafka还支持消息的压缩和索引优化,使得数据的存储更加高效。 3. 管理机制 Kafka的管理机制由Controller、Broker、Zookeeper三个组件构成。Controller负责管理整个Kafka集群的状态和各个Broker之间的主从关系,Broker则负责存储消息和处理数据。而Zookeeper则提供了集群的元数据管理和Leader选举功能。 4. 性能优化 Kafka通过异步IO和Zero-copy等技术提高数据的读写性能,同时支持消息的批量处理和预取机制,减少磁盘操作和网络开销。此外,Kafka还支持动态分区和分区再平衡等高可用性机制,确保数据的可靠性和可用性。 总之,深入理解Kafka核心设计实践原理,可以帮助用户更好地应用这一消息系统,提升系统的可靠性和性能。同时,了解Kafka原理也有助于用户更好地进行系统的调优和排错,提高系统的稳定性和可扩展性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值