1. 介绍
Kafka 是一个分布式的流平台.
2. 应用
- 构建实时流数据管道,在系统和应用程序间可靠地获取数据。
- 构建实时流应用程序,能够对数据流进行转换或响应。
3. 概念
Kafka 运行在一个或多个服务器上,以 topic 分类,每个 record 包含 key, value 和 timestamp.
4. API
- Producer API
- Consumer API
- Streams API
- Connector API:例如,一个关系数据库的连接器可捕获每一个变化
5. Topics and Logs
Topic(主题):
消息(records)发布到的一个类别名称。
Partition(分区):
由一段有序且顺序不可改变的消息(records)组成的结构化日志,消息持续追加到分区中。
每个 partition 包含一个leader,和0或多个follower。leader 负责全部读写操作,folloer被动复制leader。
Offset(偏移量):
唯一标识分区(partition)内每个记录的顺序标识号。
每个consumer的metadata只需要维持 offset 即可。
6. Consumers(消费者)
每个 record 会被发送到每个订阅该 topic 的 consumer group,但是 每个 consumer group 中只有一个 consumer 收到消息。
Kafka 只保证同一个 partiton 的 records 的顺序,不保证所有partition的records的顺序
注:若要实现所有 records 保序,可以只用一个 partition
Per-partition ordering combined with the ability to partition data by key is sufficient for most applications.
7. Role
- Kafka as a Messaging System 消息系统
- Kafka as a Storage System 存储系统
- Kafka for Stream Processing 流处理
Kafka provides a fully integrated Streams API.
This facility helps solve the hard problems this type of application faces: handling out-of-order data, reprocessing input as code changes, performing stateful computations, etc.
8. 使用场景
- Messaging 消息队列
- Website Activity Tracking 网站活动追踪
- Metrics 指标
- Log Aggregation 日志聚合
- Sream Processing 流处理
- Event Sourcing 事件采集
- Commit Log 提交日志
9. 基础操作
# 启动 kakfa, 0.10.1.0之前启动为守护进程需要加上参数 -daemon ,否则关闭shell后,kafka进程也会关闭
$ bin/kafka-server-start.sh config/server.properties &
# 创建 topic
$ bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
# kafka 提供的终端 producer 和 consumer
$ bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
$ bin/kafka-