kafka 架构

最新推荐文章于 2024-08-12 15:28:56 发布

San6653

最新推荐文章于 2024-08-12 15:28:56 发布

阅读量246

点赞数

文章标签： kafka 架构分布式

本文链接：https://blog.csdn.net/San6653/article/details/122401757

版权

producer：消息生产者，发布消息到 kafka 集群的终端或服务
broker：kafka 集群中包含的服务器。broker (经纪人，消费转发服务）
topic：每条发布到 kafka 集群的消息属于的类别，即 kafka 是面向 topic 的
partition：partition 是物理上的概念，每个 topic 包含一个或多个 partition。kafka 分配的单位是 partition。多个partition可以分配到不同的节点上
consumer：从 kafka 集群中消费消息的终端或服务
Consumer group：在较高的版本的consumer API 中，每个 consumer 都属于一个 consumer group，每条消息只能被 consumer group 中的一个 Consumer 消费，但可以被多个 consumer group 消费。即组间数据是共享的，组内数据是竞争的
replica：partition 的副本，保障 partition 的高可用
leader：replica 中的一个角色， producer 和 consumer 只跟 leader 交互
follower：replica 中的一个角色，从 leader 中复制数据
controller：kafka 集群中的其中一个服务器，用来进行 leader election 以及各种 failover
zookeeper：kafka 通过 zookeeper 来存储集群的 meta 信息

TOP与分区

Topic在逻辑上可以被认为是一个queue，每条消息都必须指定它的Topic，可以简单理解为必须指明把这条消息放进哪个queue里。

为了使得Kafka的吞吐率可以线性提高，物理上把Topic分成一个或多个Partition，每个Partition在物理（磁盘）上对应一个文件夹，该文件夹下存储这个Partition的所有消息和索引文件
因为每条消息都被append到该Partition中，属于顺序写磁盘，因此效率非常高（经验证，顺序写磁盘效率比随机写内存还要高，这是Kafka高吞吐率的一个很重要的保证）
对于传统的消息队列而言，一般会删除已经被消费的消息，而Kafka集群会保留所有的消息，无论其被消费与否。当然，因为磁盘限制，不可能永久保留所有数据（实际上也没必要），因此Kafka提供两种策略删除旧数据。一是基于时间，二是基于Partition文件大小。配置如下所示

# 日志删除间隔时间
log.retention.hours=168
# 日志文件大小，达到这个大小会产生一个新的日志文件
log.segment.bytes=1073741824
# 设置是否启用日志清理
log.cleaner.enable=false

Kafka消息流处理

producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader
producer 将消息发送给该 leader
leader 将消息写入本地 log
followers 从 leader pull 消息，写入本地 log后，给leader 发送 ACK
leader 收到所有 ISR中的 replica 的 ACK 后，增加 HW（high watermark，最后 commit 的 offset）并向 producer 发送 ACK

ISR指的是：比如有三个副本，编号是① ② ③ ，其中② 是Leader ① ③是Follower。假设在数据同步过程中，①跟上Leader,但是③出现故障或没有及时同步，则① ②是一个ISR，而③不是ISR成员。后期在Leader选举时，会用到ISR机制。会优先从ISR中选择Leader

kafka HA

一、概述

同一个 partition 可能会有多个 replica（对应 server.properties 配置中的 default.replication.factor=N）
没有 replica 的情况下，一旦 broker 宕机，其上所有 patition 的数据都不可被消费，同时 producer 也不能再将数据存于其上的 patition
引入replication 之后，同一个 partition 可能会有多个 replica，而这时需要在这些 replica 之间选出一个 leader，producer 和 consumer 只与这个 leader 交互，其它 replica 作为 follower 从 leader 中复制数据

二、leader failover

当 partition 对应的 leader 宕机时，需要从 follower 中选举出新 leader
在选举新leader时，一个基本的原则是，新的 leader 必须拥有旧 leader commit 过的所有消息
由写入流程可知 ISR 里面的所有 replica 都跟上了 leader，只有 ISR 里面的成员才能选为 leader。对于n个 replica，一个 partition 可以在容忍 n-1个 replica 失效的情况下保证消息不丢失。例如一个分区有5个副本，挂了4个，剩一个副本，依然可以工作
kafka的选举不同于zookeeper，用的不是过半选举
当所有 replica 都不工作时，有两种可行的方案：
1. 等待 ISR 中的任一个 replica 活过来，并选它作为 leader。可保障数据不丢失，但时间可能相对较长
2. 选择第一个活过来的 replica（不一定是 ISR 成员）作为 leader。无法保障数据不丢失，但相对不可用时间较短

kafka 0.8.* 使用第二种方式

kafka 通过 Controller 来选举 leader

Kafka API使用

一、生产者

@Test
public void producer() throws InterruptedException, ExecutionException {
        // 设置属性
        Properties props = new Properties();
        // 设置键的类型，实际上是偏移量
        props.put("key.serializer", "org.apache.kafka.common.serialization.IntegerSerializer");
        // 设置值的类型，实际上是实际数据
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        // 设置Kafka的连接地址
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.234.11:9092");

// 添加数据

Producer<Integer, String> kafkaProducer = new KafkaProducer<Integer, String>(props);

for (int i = 0; i < 100; i++) {

ProducerRecord<Integer, String> message = new ProducerRecord<Integer, String>("enbook", "" + i);

kafkaProducer.send(message);

}

while (true) ;

}

二、创建Topic

@Test
public void create_topic() {

        ZkUtils zkUtils = ZkUtils.apply("192.168.234.11:2181,192.168.234.210:2181,192.168.234.211:2181", 30000, 30000,
                        JaasUtils.isZkSecurityEnabled());
        // 创建一个单分区单副本名为t1的topic
        AdminUtils.createTopic(zkUtils, "t1", 1, 1, new Properties(), RackAwareMode.Enforced$.MODULE$);
        zkUtils.close();
}

三、删除Topic

@Test
public void delete_topic() {
        ZkUtils zkUtils = ZkUtils.apply("192.168.234.11:2181,192.168.234.210:2181,192.168.234.211:2181", 30000, 30000,
                        JaasUtils.isZkSecurityEnabled());
        // 删除topic 't1'
        AdminUtils.deleteTopic(zkUtils, "t1");
        zkUtils.close();
}

四、消费者组

@Test
public void consumer_1() {

Properties props = new Properties();

props.put("bootstrap.servers", "192.168.234.11:9092");

props.put("group.id", "consumer-tutorial");

props.put("key.deserializer", StringDeserializer.class.getName());

props.put("value.deserializer", StringDeserializer.class.getName());

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

consumer.subscribe(Arrays.asList("enbook", "t2"));

try {

while (true) {

ConsumerRecords<String, String> records = consumer.poll(Long.MAX_VALUE);

for (ConsumerRecord<String, String> record : records)

System.out.println("c1消费:" + record.offset() + ":" + record.value());

}

} catch (Exception e) {

} finally {

consumer.close();

}

@Test
public void consumer_2() {