Kafka
如果有 kafka 基础的同学可以不用看前面的废话,可以从第五条 [配置] 开始看起~ 代码在第七条
前言:官网比我这标准多了~ 官网跳转,大家可以先完成quickStart部分kafka单机生产消费
一、概念简介
Kafka 是一个分布式流处理平台,常被用作消息队列中间件。具有横向扩展,容错,高速等优点。
Kafka中的概念
- record: 由
key
,value
,timestamp
组成,Kafka 集群会保持所有的消息,直到它们过期,无论消息是否被消费。Kafka 的性能是和数据大小是无关的,所以可以长期保存数据。 - producer: 生产者用于发布消息。
- consumer: 消费者用于订阅消息。
- consumer group: 相同的 group.id 的消费者将视为同一个消费者组。
- topic: 消息的一种逻辑分组,用于对消息分类。相同主题的消息放在一个队列中。
- partition: 消息的一种物理分组,一个主题被称为多个分区,每个分区就是一个顺序的、不可变的消息队列,并且可以持续添加。每个分区对应一个逻辑 log,有多个 segment 组成。
- offset: 分区中的每个消息都有一个唯一的 id,称之为偏移量。它代表已经消费的位置。可以手动或自动提交偏移量。
- broker: 一台 Kafka 服务器称之为一个 broker
- replica: 副本只是一个分区的备份。副本从不读取或写入数据,它们用于防止数据丢失
- leader: Learder 是负责给定分区的所有读取和写入的节点。每个分区都有一个服务器充当 Leader, producer 和 consumer 只跟 Leader 交互
- follower: 跟随 Leader 指令的节点成为 Follower。如果 Leader 失败,一个 Follower 将自动成为 Leader。 Follower 作为正常的消费者,拉取消息并更新其自己的数据存储。副本中的一个角色,从 Leader 中复制数据。
- zookeeper: Kafka 代理都是无状态的,所以使用 Zookeeper 管理集群状态。Zookeeper 用于管理和协调 Kafka 代理
二、适用场景
- MQ - 构造实时流数据管道,它可以在系统或应用之间可靠的获取数据。
- 流处理 - 构建实时流式应用程序,对这些流数据进行转换或者影响。
三、四个核心 API
- Producer API : 允许一个应用程序发布一串流式数据到一个或者多个 Kafka topic。
- Consumer API : 允许一个应用程序订阅一个或者多个 topic,并且对发布给他们的流式数据进行处理。
- Streams API : 允许一个应用程序作为一个流处理器,消费一个或者多个 topic 产生的输入流,然后生产一个输出流到一个或者多个 topic 中去,在输入输出流之间进行有效的转换。
- Connector API : 允许构建并运行可重用的生产者或者消费者,将 Kafka topics 连接到已存在的应用程序或者数据系统。eg:连接到一个 DB,捕捉表的所有
四、Topics 和 log
- topic 就是数据主题。kafka 采用多订阅者模式,一个 topic 可以拥有一个或者多个消费者订阅它的数据。
- 对于每一个 topic,Kafka 集群都会维持一个分区日志。每个分区都是有序且顺序不可变的记录集,并且不断地追加到结构化的 commit log 文件。分区中的每一个记录都会分配一个 id 号来表示顺序,也就是偏移量 offset,offset 用来唯一的标识分区中的每一条记录。
- Kafka 集群保留所有发布