介绍:
Kafka 起初是由Linkedin 公司采用Scala 语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统,现己被捐献给Apache 基金会。目前Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。目前越来越多的开源分布式处理系统如C loudera 、Storm 、Spark 、Flink 等都支持与Kafka 集成。
Kafka 之所以受到越来越多的青睐,与它所“扮演”的三大角色是分不开的:
- 消息系统:
Kafka 和传统的消息系统(也称作消息中间件〉都具备系统解稿、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时, Kafka
还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。- 存储系统:
Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。也正是得益于Kafka 的消息持久化功能和多副本机制,我们可以把Kafka
作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。- 流式处理平台:
Kafka 不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。
1.1基本概念
一个典型的Kafka 体系架构包括若干Producer、若干Broker、若干Consumer ,以及一个ZooKeeper 集群
如下图所示。其中ZooKeeper 是Kafka 用来负责集群元数据的管理、控制器的选举等操作的。Producer 将消息发送到Broker, Broker 负责将收到的消息存储到磁盘中,而Consumer 负责从Broker 订阅并消费消息。
生产者将message发送到broker集群,消费者从broker消费message
整个Kafka 体系结构中引入了以下3 个术语:
( 1 ) Producer : 生产者,也就是发送消息的一方。生产者负责创建消息, 然后将其投递到
Kafka 中。
( 2) Consumer:消费者,也就是接收消息的一方。消费者连接到Kafka 上并接收消息,进而进行相应的业务逻辑处理。
(3) Broker :服务代理节点。对于Kafka 而言, Broker 可以简单地看作一个独立的Kafka服务节点或Kafka 服务实例。大多数情况下也可以将Broker 看作一台Kafka 服务器,前提是这台服务器上只部署了一个Kafka 实例。一个或多个Broker 组成了一个Kafka 集群。一般而言,我们更习惯使用首字母小写的broker 来表示服务代理节点。
在Kafka 中还有两个特别重要的概念一一主题( Topic )与分区( Partition )。Kafka 中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到Kafka 集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费。
主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称为主题分区( Topic-Partition )。同一主题下的不同分区包含的消息是不同的,分区在存储层面可以看作一个可追加的日志( Log )文件,消息在被追加到分区日志、文件的时候都会分配一个特定的偏移量( offset )。offset 是消息在分区中的唯一标识, Kafka 通过它来保证消息在分区内的顺序性,不过offset 并不跨越分区,也就是说, Kafka 保证的是分区有序而不是主题有序。
如图1-2 所示,主题中有4 个分区,消息被顺序追加到每个分区日志文件的尾部。Kafka中的分区可以分布在不同的服务器( broker )上,也就是说,一个主题可以横跨多个broker ,以此来提供比单个broker 更强大的性能。
Kafka 消费端也具备一定的容灾能力。Consumer 使用拉( Pull )模式从服务端拉取消息,并且保存消费的具体位置, 当消费者看机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费,这样就不会造成消息丢失。
关键词解析:
AR(Assigned Replicas):分区中的所有副本
ISR(In-Sync Replicas):所有与leader 副本保持一定程度同步的副本(包括leader 副本在内〕
HW(High Watermark):俗称高水位,它标识了一个特定的消息偏移量( offset ),消费者只能拉取到这个offset 之前的消息
LEO(Log End Offset):标识当前日志文件中下一条待写入消息的offset
分区中的所有副本统称为AR ( Assigned Replicas ) 。所有与leader 副本保持一定程度同步的副本(包括leader 副本在内〕组成ISR On-Sync Replicas ) , ISR 集合是AR 集合中的一个子集。消息会先发送到lead巳r 副本,然后follower 副本才能从leader 副本中拉取消息进行同步,同步期间内follower 副本相对于leader 副本而言会有一定程度的滞后。前面所说的“ 一定程度的同步”是指可忍受的滞后范围,这个范围可以通过参数进行配置。与leader 副本同步滞后过多的副本(不包括leader 副本)组成OSR ( Out-of-Sync Replicas ),由此可见, AR=ISR+OSR 。在正常情况下, 所有的follower 副本都应该与leader 副本保持一定程度的同步,即AR=ISR,OSR 集合为空。
注:
1.leader 副本负责维护和跟踪ISR 集合中所有follower 副本的滞后状态, 当follower 副本落后太多或失效时, leader 副本会把它从ISR 集合中剔除。如果OSR 集合中有follower 副本“追上’p了leader 副本,那么leader 副本会把它从OSR 集合转移至ISR 集合。默认情况下, 当leader 副本发生故障时,只有在ISR 集合中的副本才有资格被选举为新的leader, 而在OSR 集合中的副本则没有任何机会(不过这个原则也可以通过修改相应的参数配置来改变) 。
如图下图 所示,它代表一个日志文件,这个日志文件中有9 条消息,第一条消息的offset( LogStartOffset )为0 ,最后一条消息的offset 为8, offset 为9 的消息用虚线框表示,代表下一条待写入的消息。日志文件的HW 为6,表示消费者只能拉取到offset 在0 至5 之间的消息,而offset 为6 的消息对消费者而言是不可见的。
1.2 安装与配置
搭建Kafka 运行环境还需要涉及ZooKeep巳r, Kafka 和Zoo Keeper 都是运行在JVM 之上的服务,所以还需要安装JDK 。Kafka 从2.0.0 版本开始就不再支持JDK7 及以下版本,本节就以JDK8 为例来进行演示。
-
JDK 的安装与配置
-
ZooKeeper 安装与配置
ZooKeeper 是安装Kafka集群的必要组件,Kafka 通过ZooKeeper 来实施对元数据信息的管理,包括集群、broker、主题、分区等内容。 -
Kafka 的安装与配置
略
1.3 生产与消费
- 生产者将消息发送至Kafka 的主题中, 或者更加确切地说应该是主题的分区中,而消费者也是通过订阅主题从而消费消息的。在演示生产与消费消息之前,需要创建一个主题作为消息的载体。
Kafka 提供了许多实用的脚本工具, 存放在$KAFKA HOME 的bin 目录下
,其中与主题有关的就是kafka-top ics . sh 脚本,下面我们用它演示创建一个分区数为4 、副本因子为3 的主题topic-demo ,示例如下:
[root@nodel kafka 2 . 11- 2 . 0 . 0 ] # bin/kafka- topics.sh - - zookeeper loca l host :2181/kafka - - create – topic topic - demo – replication - factor 3 --partitions 4
Created topic " topic - demo ” .
例如
kafka-topics.sh 用来topic相关操作
kafka-console-producer.sh 模拟生产者客户端发送message
kafka-console-consumer.sh 模拟消费者客户端接收message
要往Kafka 中写入消息,首先要创建一个生产者客户端实例并设置一些配置参数,然后构建消息的ProducerR巳cord 对象,其中必须包含所要发往的主题及消息的消息体,进而再通过生产者客户端实例将消息发出, 最后可以通过close()方法来关闭生产者客户端实例并回收相应的资源。具体的示例如代码清单1-1 所示,与脚本演示时一样,示例中仅发送一条内容为Kafka !”的消息到主题topic-demo 。
代码清单1 斗生产者客户端示例代码
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;
public class ProducerFastStart {
public static final String brokerList = ”localhost:9092";
public static final String topic = ”topic-demo";
public statiC void main(String[] args) {
Properties properties = new Propert 工es() ;
properties.put (”key.serializer”,”org.apache.kafka.common.serialization.StringSerializer”;
properties.put (”value.serializer”,”org.apache.kafka.common.serialization.StringSerializer”);
properties.put (” bootstrap.servers”, brokerList) ;
//自己直生产者客户端参数并创建Kafk aProducer 实例
KafkaProducer<String, String> producer = new KafkaProducer<>(propert 工es);
//构建所需妥发送的消息
ProducerRecord<String , String> record = new ProducerRecord<>(topic , ”hello, Kafka !”);
//发送消息
try {
producer.send(record) ;
) catch (Exception e) {
e.printStackTrace() ;
}
//关闭生产者客户主自示告,1
producer.close();
}
}
对应的消费消息也比较简单,首先创建一个消费者客户端实例并配置相应的参数,然后订
阅主题并消费即可,具体的示例代码如代码清单1 -2 所示。
代码清单1 -2 消费者客户端示例代码
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties ;
public class ConsumerFastStart {
public static final String brokerList =”localhost:9092”;
public static final String topic = ”topic-demo”;
public static final String groupId = "group.demo”;
public static void main(String[] args) {
Properties properties= new Properties();
properties.put ("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer");
properties.put ("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer") ;
properties.put ("bootstrap.servers", brokerList);
//设置消货组的名称,具体的释义可以参见第3 幸
properties.put (”group.id”, groupId);
//创建一个消费者客户端实例
KafkaConsumer<String, String> consumer= new KafkaConsurner<>(properties);
//订阅主题
consumer.subscribe(Collections.singletonList(topic));
//循环消货消息
while (true) {
ConsumerRecords<String , String> records = consumer.poll(Duration.ofMi11is(l000));
for (ConsumerRecord<String , String> record : records) {
System.out.println(record.value());
}
}
}
}
注
通过这些示例,相信各位读者对Kafka 应该有了初步的认识。这仅仅是一个开始,要正确、灵活地运用好Kafka 还需要对它进行深入探索,包括生产者和消费者客户端的使用细节及原理、服务端的使用细节及原理、运维、监控等,每一个方面都等着读者去一一攻破。
1.4 服务端参数配置
在1.2 节的Kafka 安装与配置的说明中只是简单地表述了几个必要的服务端参数而没有对其进行详细的介绍,井且Kafka 服务端参数(broker configs )也并非只有这几个。Kafka服务端还有很多参数配置,涉及使用、调优的各个方面,虽然这些参数在大多数情况下不需要更改,但了解这些参数,以及在特殊应用需求的情况下进行有针对性的调优,可以更好地利用Kafka为我们工作。下面挑选一些重要的服务端参数来做细致的说明,这些参数都配置在$KAFKA_ HOME/config/server. properties 文件中。
例如:
- zookeeper.connect
- listeners
- broker.id
- log.dir和log.dirs
- message.max.bytes